轮廓分数如何为负?

问题描述

如果我们有一些数据点:

enter image description here

例如,我们使用k均值进行细分;生成的段是否不是每个点都最接近其各自簇的质心?如果是这样,当轮廓分数比较ai(到集群内点的平均距离)与bi(到集群外点的平均距离)进行比较时,怎么可能出现分数为负数,或者bi小于ai的情况呢? ?

我可以看到,对于不同的分类算法,一些更复杂的分类可能会有所不同,或者某些点分配不正确。但是,这对于k均值是如何发生的?

解决方法

点 i 到集群中点的平均距离与它到该集群质心的距离相同。在计算 a(i) 和 b(i) 时,Silhouette score 使用前者,而 k-means 在聚类分配时使用后者,因此可能存在分歧。

例如,在下图中:假设蓝点已分配给一个集群,而绿点已分配给另一个集群。红点将分配给哪个集群?蓝色星团的质心在 (0,1) 处,绿色星团的质心在 (0,-1.15) 处,因此红色点将分配给蓝色星团。但是,它到绿点的平均距离是 1.15,而到蓝点的平均距离是 1.414,所以它会得到一个负的轮廓分数。

silhouette score negative example