如何使用 Python 中的 Scipy 从分层集群中推断集群解决方案的准确性？

问题描述

我正在使用 iris 数据集在 python 中使用 scipy 构建分层集群。以下是我的代码：

from sklearn import datasets
iris = datasets.load_iris()
X = iris.data
Z = linkage(X,'complete')
plt.figure(figsize=(25,10))
dendrogram(Z)
plt.show()
kclusters = fcluster(Z,3,criterion='maxclust')

如您所见，我正在尝试检索具有 3 个集群 (k=3) 的集群解决方案。执行此操作后，我会得到一个数组，该数组指定每个实例所在的集群。但是，我怎么知道哪个集群拥有大多数“Versicolor”或“Setosa”或“Virginica”实例。我如何才能实际获得三个集群中任何一个的准确性或纯度，或者进行任何类型的推论。从 kclusters 开始，我只是对三个集群中的实例分布有一个粗略的了解，仅此而已。我如何知道这种聚类方法是否适用于虹膜数据集？如果可能，请帮助我。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

data-science hierarchical-clustering python scipy scipy