将5 百万批量加载到 Janusgraph 的最佳方法

问题描述

对 Janusgraph 进行了一些压力测试,并需要加载 500 万个顶点和边。使用 faker python 生成假数据,想知道加载这种大量数据的最佳方法是什么?我尝试使用控制台加载数据,但得到了奇怪的结果和超时。

解决方法

看起来您正在使用标签中的 Gremlin Python 客户端。一种相当常见的技术是使用多线程(或多进程)Python 应用程序,将数据分批(可能一次 50 到 100 个 addVaddE)发送到图形。从您的问题中不清楚您是否使用 Gremlin Server。如果您使用 Gremlin Server,您可能需要在 YAML 文件中配置 gremlinPool 参数,以便为您运行它的机器类提供足够的工作人员。以这种方式加载 500 万个顶点和边应该不会花太长时间。如果加载顶点和边的总时间不是问题,单个线程一次发送 50 到 100 个批次仍然相当有效。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...