问题描述
对 Janusgraph 进行了一些压力测试,并需要加载 500 万个顶点和边。使用 faker python 生成假数据,想知道加载这种大量数据的最佳方法是什么?我尝试使用控制台加载数据,但得到了奇怪的结果和超时。
解决方法
看起来您正在使用标签中的 Gremlin Python 客户端。一种相当常见的技术是使用多线程(或多进程)Python 应用程序,将数据分批(可能一次 50 到 100 个 addV
或 addE
)发送到图形。从您的问题中不清楚您是否使用 Gremlin Server。如果您使用 Gremlin Server,您可能需要在 YAML 文件中配置 gremlinPool
参数,以便为您运行它的机器类提供足够的工作人员。以这种方式加载 500 万个顶点和边应该不会花太长时间。如果加载顶点和边的总时间不是问题,单个线程一次发送 50 到 100 个批次仍然相当有效。