如何在选定的数据框列上应用函数,并取决于结果返回“初始值”还是返回0?

问题描述

很抱歉,如果我太含糊,我绝对是R(和StackOverflow)的初学者。 为了简化(粗体部分是我真正的“目标”):

我目前有一个看起来像这样的数据框:

##   Mass values  Sample 1   Sample 2  Sample x     Reference
## 1      50       6000       5866      36546        18000
## 2      51       8500      56547      346346       0
## 3      52       3600       7876      56856        96799
## 4      53       6324       5486      565676       68786

我想将以下函数应用于所有“ SAMPLE”列,而不是质量值。 (我是通过创建一个新的数据框来实现的,在该数据框中,我将Mass值设置为行名)。

**

  1. 我想应用以下格式的函数:样本值/参考值=比率X 如果比率X> 2,我想将“样本值”保留为数据帧中的初始值(而不是将其替换为由函数/比率X得出的值)。如果Ratio X
  2. 在“参考= 0”的情况下,该功能不应应用于数据帧中特定行的采样值。 ** 我试过使用apply()和sapply(),这应用了该函数,但在dataframe列中将解决方案作为新值返回。我无法找到一种方法来仅“检查”列值并根据函数解决方案返回值。我也尝试了if else语句来执行此操作,但是这一直在返回错误。我也尝试过: Ratio_X

解决方法

dplyr软件包使之可行。这是第一部分(将“参考”值不为零但大于“样本”值一半的“样本”列中的那些值替换为零。

library(dplyr)
data <- structure(list(`Mass values` = c(50,51,52,53),`Sample 1` = c(6000,8500,3600,6324),`Sample 2` = c(5866,56547,7876,5486),`Sample x` = c(36546,346346,56856,565676),Reference = c(18000,96799,68786)),row.names = c(NA,-4L),class = c("tbl_df","tbl","data.frame"))

data1 <- data %>%
   # mutate changes values in columns
  mutate(across(starts_with("Sample"),# across(starts_with()) only uses the Sample columns
                ~ case_when(Reference == 0 ~ .,# if Reference == 0,return original value
                            # if value / Reference is > 2,return original value,else 0 
                            TRUE ~ if_else(. / Reference > 2,.,0 )) ))

# A tibble: 4 x 5
  `Mass values` `Sample 1` `Sample 2` `Sample x` Reference
          <dbl>      <dbl>      <dbl>      <dbl>     <dbl>
1            50          0          0      36546     18000
2            51       8500      56547     346346         0
3            52          0          0          0     96799
4            53          0          0     565676     68786

删除零点有些棘手。这有两种方法。

# Replace with NA
data1 %>% na_if(0)
# A tibble: 4 x 5
  `Mass values` `Sample 1` `Sample 2` `Sample x` Reference
          <dbl>      <dbl>      <dbl>      <dbl>     <dbl>
1            50         NA         NA      36546     18000
2            51       8500      56547     346346        NA
3            52         NA         NA         NA     96799
4            53         NA         NA     565676     68786

# Pivot longer and remove rows with zero.
library(tidyr)
data1 %>% pivot_longer(cols = starts_with("Sample"),names_to = "Sample") %>%
  filter(value != 0)

# A tibble: 5 x 4
  `Mass values` Reference Sample    value
          <dbl>     <dbl> <chr>     <dbl>
1            50     18000 Sample x  36546
2            51         0 Sample 1   8500
3            51         0 Sample 2  56547
4            51         0 Sample x 346346
5            53     68786 Sample x 565676