python中具有大数据集的共识聚类

问题描述

我在 python here

中找到了一个非常好的共识聚类实现

但是,对于具有大样本量的大型数据集,该算法将不起作用,因为它构建了维度为 [samples,samples] 的矩阵。

对于大型数据集上的共识聚类是否有任何有效的 Python 实现?

解决方法

我面临着类似的问题,我需要对大型数据集进行共识聚类,这将产生 1,000,000 x 1,000 的共识矩阵(希望非常稀疏手指交叉)。虽然我还没有解决这个问题,但我在论文中找到了一些线索:Accelerating high-dimensional clustering with lossless data reduction 他们开发了自己的 R 算法来进行无损数据缩减,然后使用 R 包 ConsensusClusterPlus。我知道这不是一个真正的答案,它是用 R 而不是 Python 实现的,但希望它能像我一样指出人们朝着正确的方向前进!

更新

我最终在 python this paper 中实现了 here 中描述的共识聚类算法。在具有超过 1,000 个单元和大约 50 个特征的数据集上,我能够在几分钟内运行单个聚类算法,例如 FastPG,然后将这些结果用作输入到同样运行的共识聚类算法中分钟。