如何通过r中的阈值对匹配组进行计数

问题描述

我有一个数据库,其中有一个基因列表,我使用了2个机器学习模型,因此有2组预测分数。我希望确定两组之间相似得分范围内的基因有多少。

例如,我的数据如下:

Gene1       Score1       Gene2      Score2
PPL         0.77         COL8A1     0.78
NPHS2       0.77         ARHGEF25   0.77
EHD4        0.75         C1GALT1    0.77
THBS1       0.74         CEP164     0.76
PRKAA1      0.74         MLLT3      0.76
WNT7A       0.73         PPL        0.76
DVL1        0.72         MRVI1      0.75
TUBGCP4     0.71         BMPR1B     0.75
SARM1       0.71         RAB1A      0.75
VPS4A       0.70         CLTC       0.75

在此情况下,两个列表中唯一匹配的基因是PPL-我正在尝试编写代码以实现此目的,例如该代码会给出两个列表之间的所有匹配基因,得分均大于0.75。我正在尝试执行此操作以检查多个得分阈值处的基因。

我已经看过使用措辞相似的问题编写的代码,但是没有一个具有与我的相似的数据结构。我已经尝试过使用filter()match(),但仍无法正常使用,请提供任何帮助。

Input data:

dput(df)
structure(list(Gene1 = c("PPL","NPHS2","EHD4","THBS1","PRKAA1","WNT7A","DVL1","TUBGCP4","SARM1","VPS4A"),`Score1` = c(0.78,0.77,0.75,0.74,0.73,0.72,0.71,0.70),Gene2 = c("COL8A1","ARHGEF25","C1GALT1","CEP164","MLLT3","PPL","MRVI1","BMPR1B","RAB1A","CLTC"),`Score2` = c(0.78,0.76,0.75)),row.names = c(NA,-10L
),class = c("data.table","data.frame"))

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)