您是否期望线性分类器将 2D-PC 空间中的两个类分开?

问题描述

我总共有 183 个特征,我已经应用 PCA 来减少维度,然后我做了一个散点图。现在的问题是:“直观地分析散点图。您是否期望线性分类器将 2D-PC 空间中的两个类分开?”

from sklearn.decomposition import PCA
pca = PCA(n_components = 3)
pca.fit(scaled_data)
x_pca = pca.transform(scaled_data)

下面是散点图代码

plt.figure(figsize =(6,6))
plt.scatter(x_pca[:,0],x_pca[:,1],c = y_train)
plt.xlabel('First Principal Component')
plt.ylabel('Second Principal Component') 
legend1 = plt.legend(*scatter.legend_elements(),loc="upper right",title="Classes")

Here is the scatter plot.

解决方法

如果您想根据 PCA 后降维结果的两个特征对它们进行分类,那么显然您不能期望线性分类器将它们分开,如图所示。

然而,有可能在另一个空间中找到一个线性分类器,该分类器由一些基于所有特征的内核计算。

这个链接中有一个完美的例子,用于对圆内外的点进行分类的内核技巧。 https://medium.com/@ankitnitjsr13/math-behind-svm-kernel-trick-5a82aa04ab04

通用内核技巧可以轻松集成到 ml 分类器中。大多数框架都支持它,但你必须尝试不同的内核,看看哪个最有效