R - 统计 - 如何知道两对值是否与两个数据集显着不同= 相关性的异常值

问题描述

首先,对不起标题。由于我是统计数据的真正菜鸟,因此知道如何表达我的问题非常复杂......

话虽如此,我会尽量说清楚。感谢您的耐心等待 ! 这是一个示例数据:

dput(test)
structure(list(coords = c("chr11:71478469-71480755","chr11:72233163-72233655","chr11:72237796-72238263","chr11:72688537-72692753","chr11:72688537-72693325","chr11:73390921-73392211"),dPSI.BM_PrePB = c(-0.211854387676934,0.291806579364004,0.333357771512903,-0.314633537078126,0.27350910457179,0.263596043484295),dPSI.BM_Bact = c(-0.326793349890209,0.287308483987104,0.332897018970844,0.225803052051341,-0.226736267092175,0.262209354876416
)),row.names = 825:830,class = "data.frame")

我的完整数据大约有 4400 行。

所以我需要知道两个数据集是否相关(我的示例数据的 dPSI.BM_PrePB 和 dPSI.BM_Bact 列)。以下是我的 2 个真实数据集的摘要

 summary(mergeboth$dPSI.BM_PrePB)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-0.94914 -0.32776  0.21163  0.01302  0.31650  0.94582

 summary(mergeboth$dPSI.BM_Bact)
    Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
-0.96366 -0.32977  0.21163  0.01103  0.31833  0.95622 

我做了皮尔逊相关,很明显我的两个数据集是相关的,我还用散点图将其可视化: Scatterplot of pearson correlation

现在我的问题是:我需要提取少数“异常值”(看起来它在我的 4400 个中不到 100 个),因为它在另一项研究中具有生物学影响。我正在考虑一种比较价值对的方法,以获得显着不同的价值,但我无法理解它。我只是不知道该怎么做。 我还在许多主题中看到检索异常值很复杂(例如可能涉及设置阈值),所以我不能从相关性分析开始,对吗? 我知道我们可以测试两个总体的均值,但我对均值不感兴趣,我对与其他事件明显不遵循相同行为的精确值感兴趣。

非常感谢您的建议。 祝你今天过得愉快 ! :)

艾莎

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)