python中具有大数据集的共识聚类

问题描述

我在 python here

中找到了一个非常好的共识聚类实现

但是，对于具有大样本量的大型数据集，该算法将不起作用，因为它构建了维度为 [samples,samples] 的矩阵。

对于大型数据集上的共识聚类是否有任何有效的 Python 实现？

解决方法

我面临着类似的问题，我需要对大型数据集进行共识聚类，这将产生 1,000,000 x 1,000 的共识矩阵（希望非常稀疏手指交叉）。虽然我还没有解决这个问题，但我在论文中找到了一些线索：Accelerating high-dimensional clustering with lossless data reduction 他们开发了自己的 R 算法来进行无损数据缩减，然后使用 R 包 ConsensusClusterPlus。我知道这不是一个真正的答案，它是用 R 而不是 Python 实现的，但希望它能像我一样指出人们朝着正确的方向前进！

更新

我最终在 python this paper 中实现了 here 中描述的共识聚类算法。在具有超过 1,000 个单元和大约 50 个特征的数据集上，我能够在几分钟内运行单个聚类算法，例如 FastPG，然后将这些结果用作输入到同样运行的共识聚类算法中分钟。

cluster-analysis consensus python