JanusgraphGremlinServer导入可提高性能

问题描述

我正在尝试导入 gryo 格式的1GB（包括约10万个顶点，360万条边）的图形数据。我尝试通过gremlin-client导入，出现以下错误：

gremlin> graph.io（IoCore.gryo（））。readGraph（'janusgraph_dump_2020_09_30_local.gryo'）超出了GC开销限制键入'：help'或'：h'寻求帮助。显示堆栈跟踪？ [yN] y java.lang.OutOfMemoryError：GC开销限制超出 org.cliffc.high_scale_lib.NonBlockingHashMapLong $ CHM。（NonBlockingHashMapLong.java:471）在 org.cliffc.high_scale_lib.NonBlockingHashMapLong.initialize（NonBlockingHashMapLong.java:241）

Cassandra的克里姆林宫服务器详细信息如下：

Gremlin-Server：

Janusgraph版本：0.5.2 Gremlin版本：3.4.6

Heap: JAVA_OPTIONS="-xms4G -Xmx4G …
// gremlin conf
threadPoolWorker: 8
gremlinPool: 16
scriptEvaluationTimeout: 90000
// cql props
query.batch=true

Cassandra位于具有3个节点的集群中

Cassandra版本：3.11.0

节点1：RAM：8GB，Cassandra堆：1GB（-xms1G -Xmx1G）
Node2：RAM：8GB，Cassandra堆：4GB（-xms4G -Xmx4G）
Node3：RAM：8GB，Cassandra Heap：4GB（-xms4G -Xmx4G）

每个节点都已安装Gremlin-Server（客户端的负载均衡器）。但是我们正在在Node1中执行gremlin查询。

有人可以在以下方面帮助我吗？

我需要做什么导入（任何配置更改）？

>>>将大量数据导出/导入Janusgraph（Gremlin-Server）的最佳方法是什么？ （我需要为此回答）

有什么方法可以成块导出数据并成块导入？

谢谢。

编辑：

我已经将Node1（Gremlin服务器堆）增加到2GB。导入查询响应已已取消。也许，对于Gremlin和Cassandra而言，RAM分配是不够的。这就是为什么我将其保留为1GB，以便执行查询的原因。

考虑到巨大的数据（数十亿个顶点/边缘），这要少得多，希望8GB RAM和2/4核足以满足群集中的每个节点。

解决方法

Graph.io()和现在首选的Gremlin步骤io()使用GryoReader来读取文件（除非图形提供程序覆盖了后者的Gremlin io()步骤，但我没有认为JansuGraph确实如此）。因此，如果您使用GryoReader，通常会需要大量内存（超出您的预期），因为它拥有所有顶点的缓存以加快加载速度。最终，加载的效率不是很高，并且从TinkerPop的角度出发，期望提供商会通过遇到它们时拦截io()步骤来使用自己的本地批量加载器来优化加载。如果没有这种优化，通常的建议是使用直接使用的图形的批量加载工具。对于JanusGraph，这可能意味着将自身作为脚本的一部分进行并行化，或者使用Gremlin OLAP加载方法。可以在JanusGraph Documentation以及这些博客文章中找到一些建议：

https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-ace7d146af05 https://medium.com/@nitinpoddar/bulk-loading-data-into-janusgraph-part-2-ca946db26582

您也可以考虑使用自定义VertexProgram进行批量加载。 TinkerPop具有CloneVertexProgram，它是BulkLoaderVertexProgram（现在已被弃用/在最近版本中已删除）的更通用的继任者，在JanusGraph上广受欢迎，因为它是通用的批量加载工具，在TinkerPop不再尝试供应之前这种功能。

在您的数百万个边缘的规模上，我可能会编写一个小的groovy脚本，该脚本将在Gremlin Console中运行，以将我的数据直接加载到图形上，避免首先尝试使用Gryo这样的中间格式。它的运行速度可能会快得多，并且可以避免您过多地研究JanusGraph的批量加载策略。如果您选择这种情况，那么上面我提供的JanusGraph文档的链接应该对您最有帮助。您可以省去使用OLAP，Spark和其他选项的麻烦，直到有数亿条边缘（或更多）要加载。

cassandra gremlin-server import janusgraph performance