我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因？

我们的目标是在 ppi 网络数据集中找到类似的基因，该数据集采用加权边列表的形式。使用图聚类算法后，我们如何衡量这些聚类的相似性？

我们数据集的一个示例行：

Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244

提前致谢。

Adjusted rand index、Jaccard 相似度、完整性、同质性，这些都是应该给出聚类相似度概念的度量。它们都在 scipy 中实现。

如果您的聚类数量不是太多，比如说不超过 20 个，我非常喜欢制作一个 contingency matrix 来分析两个不同的聚类结果。

当然，在这些场景中您不会获得基本事实，但您仍然可以使用上述所有指标来查找结果之间的相似性。