将元数据与基于表达式的k均值聚类相关联在R中

问题描述

在分析我的当前项目时,我想知道一个问题。 我正在分析来自具有特定疾病单基因背景的患者的细胞蛋白质组数据。

对于聚类分析,我应用了stats软件包中的k-means算法,并使用平方和和轮廓宽度确定了最佳聚类量。 接下来,我将数据绘制为tSNE并用彩色阴影包围了k均值聚类。 我之所以使用tSNE,是因为PCA分析表明,至少需要8个维度才能包含数据集的方差,因此PC1 / 2图将不足(并且实际上看起来很糟糕/令人费解)

所得的tSNE图看起来非常好,大多数聚类包含来自相同基因型的样品,这进一步强化了我们的假设,即蛋白质组谱确实是特定基因型的。 但是还有另外两个包含基因型混合的簇。 我从样本注释中绘制了不同的元数据,发现这两个“额外群集”包含来自接受了异常治疗方案的患者的样本。

我想知道我是否可以计算出簇中样本与它们各自的元数据之间的某种相关性,以数学方式定义簇的分配是否受基因型或治疗的驱动。

以下是两个图来说明我的意思:

tSNE with k-means cluster and genotypes

etSNE with k-means cluster and treatment

您是否对基因型或治疗驱动簇分配的计算有何建议?

非常感谢您!

塞巴斯蒂安

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)