我们可以改装或适应零件聚类算法吗？

编程问答 2022-05-14

问题描述

我想对大数据集（超过 100 万条记录）进行聚类。
我想对这个聚类任务使用 dbscan 或 hdbscan 算法。

当我尝试使用其中一种算法时，出现内存错误。

有没有办法将大数据集分成几部分？（使用 for 循环并每 1000 条记录重新调整一次）？
如果不是，有没有更好的方法来集群大数据集，而不升级机器内存？

解决方法

如果你数据集中的特征数量不是太多（低于20-25），你可以考虑使用BIRCH。这是一种迭代方法，可用于大型数据集。在每次迭代中，它构建一棵仅包含少量数据样本的树，并将每个实例放入集群中。

dbscan hdbscan hierarchical-clustering scikit-learn unsupervised-learning