问题描述
我正在比较不同的聚类方法。例如,采用K均值的聚类聚类,根据样本进行预测等。
我在python中,主要使用pandas和sklearn。
当然,我的问题是,观察值所分配的簇号对于每种算法都是不同的,而我得到的与此类似:
我正在为8个群集手动执行此操作,但是如果我有更多群集,那将是一场噩梦。
我认为这个想法是根据多少个共同点重新标记结果。目前是在比较相同数量的群集时,应该更容易。
谢谢!
解决方法
使用两个模型的输出构建一个contingency matrix。如果您想要相似类型的评分,请使用adjusted rand index.