问题描述
graphx
中似乎没有内置方法来正确加载加权图。我有一个文件,其中的列代表图形的边缘:
# source_id target_id weight
0 1 1
1 2 2
2 3 3
3 4 4
4 5 5
5 0 6
如何将其正确加载到 graphx.Graph
中?
解决方法
我不熟悉 GraphX,但这里有一种手动方法可以做到这一点。这有点难看,但无论如何它都能完成工作。我为每个顶点分配了一个属性“名称”,但您可以根据需要进行调整。
import org.apache.spark.graphx._
val input = sc.textFile("edgefile.txt")
val header = input.first()
val rdd = input.filter(row => row != header).map(_.split(" ").map(_.toLong))
val edges = rdd.map(s => Edge(s(0),s(1),s(2)))
val vertices = rdd.map(r => r(0)).union(rdd.map(r => r(1))).distinct.map(r => (r,"name"))
val graph = Graph(vertices,edges)
graph.vertices.foreach(println)
(3,name)
(1,name)
(2,name)
(0,name)
(4,name)
(5,name)
graph.edges.foreach(println)
Edge(0,1,1)
Edge(1,2,2)
Edge(2,3,3)
Edge(3,4,4)
Edge(4,5,5)
Edge(5,6)