Janusgraph的功能和未来

问题描述

我正在从事的项目目前使用Neo4j社区。目前，我们可以处理具有5-20M个边的1-5M个顶点，但我们的目标是要处理带有50-100M个边的10-20M个顶点。我们正在讨论切换到图形数据库开源项目的想法，这将使我们能够按比例缩放。目前，我们决定与Cassandra一起使用Janusgraph。

我们对Janusgraph的功能和开发存在一些疑问，如果有人可以回答我们，我们将感到非常高兴！（也许是Misha Brukman还是Aaron Ploetz？）

关于Janusgraph功能：

我们使用Janusgraph即用型docker映像进行了一些实验，查询是通过java程序发出的。 Java程序和Docker映像在同一台机器上运行。在插入有50k-100k条边的10k-20k顶点的数量级中，对所有具有拥有Give属性的顶点的查询将花费8到10秒（10次相同查询的平均时间，该时间在Java程序中的前后））。该命令本身非常简单：

g.V().has("secText","some text").inE().outV();

此外，当我尝试插入更多记录（扩展到10万个顶点）时，docker映像似乎崩溃了。

我们想知道这是由于docker映像的有限性引起的还是有任何问题或者是否正常？无论如何，它看起来确实非常缓慢。
我们在镇上使用Janusgraph建立了2个节点的Cassandra集群（在2个不同的VM上），结果还是很慢。
根据我在Internet上阅读的内容，人们似乎在使用Janusgraph部署并在生产中使用了数百万个顶点，因此我想他们可以在几毫秒内执行简单的查询。那里的秘密是什么？您需要128GB的RAM才能使整个设备正常运行吗？还是有我不知道的遵循良好实践的指南？我尽力使用Janusgraph的官方文档和在类似此处的论坛上的用户评论，但我对此并不担心：/

关于Janusgraph的未来：

Janusgraph在头几年（如2016-2018年）似乎发展很快，但是在过去的几个月中，除了几个月前发布的0.5版本之外，我没有看到Janusgraph社区的大量活动。例如，自去年以来没有会议。所以我想知道：Janusgraph是否在正确的轨道上得以持续并保持了很多年。是因为COVID导致事情变慢了还是有事情发生？
Janusgraph中是否考虑了向后兼容性？从我在文档中可以看到的内容来看，许多事情已经从0.2 / 0.3版本更改为0.4和0.5。例如，Cassandra Thrift和嵌入式系统已被弃用。因此，在生产环境中，我们不能总是负担每年的版本更新，在某些组件已过时的情况下，请不要进行代码修改，Janusgraph开发人员是否打算尽快实现一些向后兼容性，或者我们是否应该等待该版本的1.0版本？

感谢您阅读所有这些内容，我期待您能为我提供的所有答案:)祝您愉快！

梅尔

解决方法

带有Cassandra的JanusGraph在存储层有设计限制，这会降低性能。实际上，它具有大型，可伸缩但缓慢的图形数据库，可提供Cassandra的复制和冗余优势。

Cassandra可以分片数据，并且擅长在整个集群中随机分布数据，但是这破坏了快速进行遍历所需的数据局部性。除了Cassandra之外，JanusGraph还支持多种后端存储选项，这意味着它没有严格调整到任何特定的存储体系结构。

内存可能会有所不同，因此请验证已为每个节点上的JVM分配了多少内存，使用G1GC并禁用交换。 VisualVM有助于分析您的内存空间。

您好，我知道这可能会迟到，但请告诉我。您是否访问所有顶点以进行分析或事务查询？ OLAP 还是 OLTP？因为您查询的顶点和边的数量以及您如何查询会产生重大影响。例如，您是否告诉 Janusgraph 返回一个顶点，该顶点具有数百万条边，所有这些边都在一个镜头中，还是只有少数几条。这被称为热顶点（一个顶点有很多不能存储在一个服务器实例上的边）。

cassandra janusgraph neo4j