我们如何比较图聚类结果以在蛋白质-蛋白质相互作用网络中找到相似的基因?

问题描述

我们的目标是在 ppi 网络数据集中找到类似的基因,该数据集采用加权边列表的形式。使用图聚类算法后,我们如何衡量这些聚类的相似性?

我们数据集的一个示例行:

Gene1 Gene2 Weight
10021 23416 0.1365
10040 57679 0.1244

提前致谢。

解决方法

Adjusted rand index、Jaccard 相似度、完整性、同质性,这些都是应该给出聚类相似度概念的度量。它们都在 scipy 中实现。

如果您的聚类数量不是太多,比如说不超过 20 个,我非常喜欢制作一个 contingency matrix 来分析两个不同的聚类结果。

当然,在这些场景中您不会获得基本事实,但您仍然可以使用上述所有指标来查找结果之间的相似性。