在R数据帧上反向缩放

问题描述

我目前正在使用R为酵母中的蛋白质分配突变显着性值。

我有一个看起来像这样的数据框:

   new_yeast_genes new_q_values
1             HNT1 4.836462e-01
2            EMP47 6.792469e-01
3             QDR2 6.357284e-01
4             TMS1 9.781394e-01
5             TMS1 8.672664e-01
...

但是,有时会有一个q_value明显低于其他值:

...
35            HHF1 5.565396e-01
36            RGA2 2.323061e-12
37           CDC24 8.174687e-01
...

# Notice how value for row 36 is very low

我想将这些q_values重新缩放为1-10000比例。但是,我需要最高原始q_value (即〜9.85e-01),使其成为新标度中的最低(值1)。相反,最低的原始q_value(即〜1.36e-13)需要在新标度上最高(例如10000)。

我对这里提出的方程进行了修改https://stats.stackexchange.com/questions/25894/changing-the-scale-of-a-variable-to-0-100。 但是,我并没有达到我期待的结果。

执行此操作的最佳方法是什么?

解决方法

也许您可以尝试下面的代码来重新缩放q值

within(df,rescaled_q_values <- 1e5*(max(new_q_values)-new_q_values)/diff(range(new_q_values)))

给出

   new_yeast_genes new_q_values rescaled_q_values
1             HNT1 4.836462e-01          50554.47
2            EMP47 6.792469e-01          30557.25
3             QDR2 6.357284e-01          35006.36
4             TMS1 9.781394e-01              0.00
5             TMS1 8.672664e-01          11335.09
35            HHF1 5.565396e-01          43102.22
36            RGA2 2.323061e-12         100000.00
37           CDC24 8.174687e-01          16426.16

数据

df <- structure(list(new_yeast_genes = c("HNT1","EMP47","QDR2","TMS1","HHF1","RGA2","CDC24"),new_q_values = c(0.4836462,0.6792469,0.6357284,0.9781394,0.8672664,0.5565396,2.323061e-12,0.8174687)),class = "data.frame",row.names = c("1","2","3","4","5","35","36","37"))