Neo4j Cypher：如何在基数较高时优化 NOT EXISTS 查询

问题描述

当黑白用户发帖的基数约为 8000（一个用户查看约 8000 个帖子）时，以下查询需要超过 1 秒和消费者约 7 MB。由于高且线性增长的延迟和内存消耗，很难进行扩展。是否有可能对其进行不同的建模和/或优化查询？

PROFILE MATCH (u:User)-[:CREATED]->(p:Post) WHERE NOT (:User{ID: 2})-[:VIEWED]->(p) RETURN p.ID

计划

| Plan      | Statement   | Version      | Planner | Runtime       | Time | DbHits  | Rows | Memory (Bytes) |
+-----------------------------------------------------------------------------------------------------------+
| "PROFILE" | "READ_ONLY" | "CYPHER 4.1" | "COST"  | "INTERPRETED" | 1033 | 3721750 | 10   | 6696240        |
+-----------------------------------------------------------------------------------------------------------+


+------------------------------+-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| Operator                     | Details                                       | Estimated Rows | Rows | DB Hits | Cache H/M | Memory (Bytes) | Ordered by     |
+------------------------------+-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +ProduceResults@neo4j        | `p.ID`                                        |           2158 |   10 |       0 |       0/0 |                |                |
| |                            +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +Projection@neo4j            | p.ID AS `p.ID`                                |           2158 |   10 |      10 |       0/0 |                |                |
| |                            +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +Filter@neo4j                | u:User                                        |           2158 |   10 |      10 |       0/0 |                |                |
| |                            +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +Expand(All)@neo4j           | (p)<-[anon_15:CREATED]-(u)                    |           2158 |   10 |      20 |       0/0 |                |                |
| |                            +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +AntiSemiApply@neo4j         |                                               |           2158 |   10 |       0 |       0/0 |                |                |
| |\                           +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| | +Expand(Into)@neo4j        | (anon_47)-[anon_61:VIEWED]->(p)               |            233 |    0 | 3695819 |       0/0 |        6696240 | anon_47.ID ASC |
| | |                          +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| | +NodeUniqueIndexSeek@neo4j | UNIQUE anon_47:User(ID) WHERE ID = $autoint_0 |           8630 | 8630 |   17260 |       0/0 |                | anon_47.ID ASC |
| |                            +-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+
| +NodeByLabelScan@neo4j       | p:Post                                        |           8630 | 8630 |    8631 |       0/0 |                |                |
+------------------------------+-----------------------------------------------+----------------+------+---------+-----------+----------------+----------------+

解决方法

是的，这可以改进。

首先，让我们了解这是做什么的。

首先，它从一个 NodeByLabelScan 开始。这是有道理的，无可避免。

但是，对于标签的每个节点（以下执行 PER ROW！），它与用户 2 匹配，并扩展来自用户 2 的所有 :VIEWED 关系，以查看其中是否有任何一个是该特定行的帖子。

你能看出为什么这是低效的吗？按照PROFILE计划有8630个post节点，所以用户2被索引查找了8630次，他们的:VIEWED关系扩展了8630次。为什么是 8630 次？因为这是每个 :Post 节点发生的。

相反，试试这个：

MATCH (:User{ID: 2})-[:VIEWED]->(viewedPost)
WITH collect(viewedPost) as viewedPosts
MATCH (:User)-[:CREATED]->(p:Post) 
WHERE NOT p IN viewedPosts 
RETURN p.ID

这有点改变了。

首先匹配用户 2 查看过的帖子（查找和扩展只执行一次），然后收集那些查看过的帖子。

然后它会进行标签扫描，并进行过滤，使该帖子不在查看过的帖子集合中。

cypher neo4j neo4j