在没有 Pandas 的情况下将 Pyspark 数据帧转换为 NetworkX

问题描述

我想将一个由边(大约 100+ 百万个)组成的 pyspark 数据帧转换为 networkX 图。我想避免在该过程中将此数据帧转换为熊猫数据帧(如此处Load nodes with attributes and edges from DataFrame to NetworkX 所提议的那样),因为它会占用大量内存。

有没有办法将边缘数据帧中的 'src' 和 'dst' 列直接转换为 NetworkX 格式?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)