问题描述
|
我正在为一些2D数据构建分类器。
我有一些训练数据,我知道这些训练的课程,并在图表上绘制了这些数据以查看聚类。
对于观察者来说,有明显的,单独的簇,但是不幸的是它们分散在直线上而不是紧密的簇中。一条线扩展线以大约80度角上升,另一条线扩展线与水平线成大约10度角,但所有三个线点似乎都指向原点。
我想对某些测试数据执行最近邻分类,从外观上看,如果测试数据与训练数据非常相似,则三邻域分类器可以很好地工作,除非数据接近图的原点,在这种情况下,三个群集非常靠近,可能会出现一些错误。
我应该为我的聚类得出一些估计的高斯分布吗?如果是这样,我不确定如何将其与最近的邻居分类器结合使用?
感谢您的任何投入。
干杯
解决方法
在运行最近邻居之前,将所有点都转换为[r,angle],并将r缩小至0到90的范围。
为什么呢NN使用点与中心之间的欧几里得距离(在大多数实现中),
但是你想要
distance( point,centre )
更像
sqrt((point.r-center.r)^ 2 +(point.angle-center.angle)^ 2)
比sqrt((point.x-centre.x)^ 2 +(point.y-centre.y)^ 2)。
将比例缩小到30? 10?重量角将大于r,这似乎是您想要的。,为什么要使用k-NN?任何线性分类器都可以解决问题。尝试使用SVM解决它,您将获得更好的结果。
如果您坚持使用kNN,则显然必须缩放功能并将其转换为极性功能,如此处所述。