问题描述
我一直在寻找可以使用重叠顶点创建子图的包。
根据我在 Networkx
和 metis
中的理解,可以将图划分为两个或多个部分。但是我找不到如何划分具有重叠节点的子图。
关于支持重叠顶点分区的库的建议将非常有帮助。
编辑:我尝试了 CDLIB 中的 angel
算法将原始图划分为具有 4 个重叠节点的子图。
import networkx as nx
from cdlib import algorithms
if __name__ == '__main__':
g = nx.karate_club_graph()
coms = algorithms.angel(g,threshold=4,min_community_size=10)
print(coms.method_name)
print(coms.method_parameters) # Clustering parameters)
print(coms.communities)
print(coms.overlap)
print(coms.node_coverage)
输出:
ANGEL
{'threshold': 4,'min_community_size': 10}
[[14,15,18,20,22,23,27,29,30,31,32,8],[1,12,13,17,19,2,21,3,7,[14,33,8]]
True
0.6470588235294118
从返回的社区中,我知道 1 和 3 有 4 个节点的重叠,但 2 和 3 或 1 和 3 没有 4 个节点的重叠大小。
我不清楚如何指定重叠阈值(4 个重叠)
这里algorithms. angel(g,min_community_size=10)
。我尝试在此处设置 threshold=4 来定义 4 个节点的重叠大小。但是,从 documentation available for angel
:param threshold:在[0,1]中合并阈值。
我不确定如何将 4 个重叠转换为必须在边界 [0,1] 之间设置的值。建议会很有帮助。
解决方法
您可以查看CDLIB:
他们有大量适用于 networkX 的社区查找算法,包括一些 overlapping communities algorithms。
-
附注:
函数的返回类型称为Node Clustering
,一开始可能会有点混乱,所以这里是 the methods applicable to it,通常您只想convert to a Python dictionary。
特别是关于angel
algorithm in CDLIB:
根据ANGEL: efficient,and effective,node-centric community discovery in static and dynamic networks,阈值不是重叠阈值,而是使用如下:
如果比率大于(或等于)给定阈值,则应用合并并更新节点标签。
-
这个值基本上决定了是否将节点进一步合并成更大的社区,不等于重叠节点的数量。
-
另外,不要将“标签”与“节点的标签”混淆(如
nx.relabel_nodes(G,labels)
)。引用的“标签”实际上与 Label Propagation Algorithm 使用的 ANGEL 相关。
至于改变这个阈值的影响:
[...] 提高阈值,我们获得了更多的社区,因为无法进行低质量的合并。
[基于@J 的评论。阿诺德先生]
从 ANGEL's github repository 您可以看到,当 threshold >= 1
仅使用 min_comsize
值时:
self.threshold = threshold
if self.threshold < 1:
self.min_community_size = max([3,min_comsize,int(1. / (1 - self.threshold))])
else:
self.min_community_size = min_comsize