DBSCAN无重复

问题描述

我有一个大样本(一百万个数据点),需要针对集群进行分析。我事先不知道簇的数量,并且我想消除样本中的一些噪音,DBSCAN非常适合我的问题。众所周知,分析大样本会导致性能和内存问题。我的样本中有大量重复项(〜900K),我想利用这一点。在我的情况下,最好的方法是使用DBSCAN版本,该版本考虑重复项的权重并产生相同的结果。是否有这种DBSCAN实现的开源/免费版本?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)