DBSCAN无重复

问题描述

我有一个大样本（一百万个数据点），需要针对集群进行分析。我事先不知道簇的数量，并且我想消除样本中的一些噪音，DBSCAN非常适合我的问题。众所周知，分析大样本会导致性能和内存问题。我的样本中有大量重复项（〜900K），我想利用这一点。在我的情况下，最好的方法是使用DBSCAN版本，该版本考虑重复项的权重并产生相同的结果。是否有这种DBSCAN实现的开源/免费版本？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cluster-analysis dbscan duplicates large-data machine-learning