sklearn和从头开始的不同Kmean结果

问题描述

我试图比较sklearn软件包和从头开始的kmean聚类结果。暂存代码如下所示：

import matplotlib.pyplot as plt
from matplotlib import style

style.use('ggplot')
import numpy as np

colors = 10 * ["g","r","c","b","k"]


class K_Means:
    def __init__(self,k=3,tol=0.001,max_iter=300):
        self.k = k
        self.tol = tol
        self.max_iter = max_iter

    def fit(self,data):

        self.centroids = {}

        for i in range(self.k):
            self.centroids[i] = data[i]

        for i in range(self.max_iter):
            self.classifications = {}

            for i in range(self.k):
                self.classifications[i] = []

            for featureset in data:
                distances = [np.linalg.norm(featureset - self.centroids[centroid]) for centroid in self.centroids]
                classification = distances.index(min(distances))
                self.classifications[classification].append(featureset)

            prev_centroids = dict(self.centroids)

            for classification in self.classifications:
                self.centroids[classification] = np.average(self.classifications[classification],axis=0)

            optimized = True

            for c in self.centroids:
                original_centroid = prev_centroids[c]
                current_centroid = self.centroids[c]
                if np.sum((current_centroid - original_centroid) / original_centroid * 100.0) > self.tol:
                    print(np.sum((current_centroid - original_centroid) / original_centroid * 100.0))
                    optimized = False

            if optimized:
                break

    def predict(self,data):
        distances = [np.linalg.norm(data - self.centroids[centroid]) for centroid in self.centroids]
        classification = distances.index(min(distances))
        return classification

kmeans = K_Means()
kmeans.fit(reduced_data)

for centroid in kmeans.centroids:
    plt.scatter(kmeans.centroids[centroid][0],kmeans.centroids[centroid][1],marker="x",color="b",s=169,linewidths=3,zorder=10)

for classification in kmeans.classifications:
    color = colors[classification]
    for featureset in kmeans.classifications[classification]:
        plt.scatter(featureset[0],featureset[1],marker="o",color=color)

plt.show()

但是，由于收敛的质心不同，结果也有所不同。 sklearn的散点图：

同时，上面代码中的散点图：

我想知道暂存代码中有什么错误。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cluster-analysis k-means python scikit-learn