我们可以改装或适应零件聚类算法吗?

问题描述

  • 我想对大数据集(超过 100 万条记录)进行聚类。
  • 我想对这个聚类任务使用 dbscanhdbscan 算法。

当我尝试使用其中一种算法时,出现内存错误

  • 有没有办法将大数据集分成几部分? (使用 for 循环并每 1000 条记录重新调整一次)?
  • 如果不是,有没有更好的方法来集群大数据集,而不升级机器内存?

解决方法

如果你数据集中的特征数量不是太多(低于20-25),你可以考虑使用BIRCH。这是一种迭代方法,可用于大型数据集。在每次迭代中,它构建一棵仅包含少量数据样本的树,并将每个实例放入集群中。