如何基于R中特定列给出的子组创建新的数据框提取方法 数据

问题描述

一段时间以来,我没有找到一个很好的解决方案。我要做的是基于ID对数据帧中的某些行求平均,并创建一个不同的数据帧。假设我有一个看起来像这样的数据框:

数据

structure(list(ID = c("A1","A1","A2","A2"
),Name = c("S.coli","S.coli","S.coli"),Location = c("Indv1","Indv1","Indv2","Indv2"),x1 = c(1L,1L,1L),x2 = c(2L,2L,2L),x3 = c(3L,3L,3L),x4 = c(4L,4L,4L),x5 = c(5L,5L,5L)),class = "data.frame",row.names = c(NA,-7L))
ID   Name     Location x1 x2 x3 x4 x5
A1   S.coli   Indv1     1  2  3  4   5
A1   S.coli   Indv1     1  2  3  4   5
A1   S.coli   Indv1     1  2  3  4   5
A1   S.coli   Indv1     1  2  3  4   5
A2   S.coli   Indv2     1  2  3  4   5
A2   S.coli   Indv2     1  2  3  4   5
A2   S.coli   Indv2     1  2  3  4   5

现在,我想要第二个数据框,其中每个变量x每个ID代码的平均值也保留名称和位置。 平均值数据框:

ID   Name     Location x1 x2 x3 x4 x5
A1   S.coli   Indv1    1  2  3  4   5
A2   S.coli   Indv2    1  2  3  4   5

我有很多ID代码,所以子集化然后再连接表几乎就像手动完成一样。我想知道是否有更有效的方法来做到这一点。 预先谢谢你!

解决方法

我们可以使用

library(dplyr)
df %>%
   group_by(across(ID:Location)) %>%
   summarise(across(everything(),mean,na.rm = TRUE))
# A tibble: 2 x 8
# Groups:   ID,Name [2]
#  ID    Name   Location    x1    x2    x3    x4    x5
#  <chr> <chr>  <chr>    <dbl> <dbl> <dbl> <dbl> <dbl>
#1 A1    S.coli Indv1        1     2     3     4     5
#2 A2    S.coli Indv2        1     2     3     4     5

数据

df <- structure(list(ID = c("A1","A1","A2","A2"
),Name = c("S.coli","S.coli","S.coli"),Location = c("Indv1","Indv1","Indv2","Indv2"),x1 = c(1L,1L,1L),x2 = c(2L,2L,2L),x3 = c(3L,3L,3L),x4 = c(4L,4L,4L),x5 = c(5L,5L,5L)),class = "data.frame",row.names = c(NA,-7L))
,

dplyr较旧版本的@Akrun逻辑相同

library(dplyr)
df %>% 
  group_by(ID,Name,Location) %>% 
  summarise_at(vars(x1:x5),na.rm = TRUE)
# Groups:   ID,Name [2]
#   ID    Name   Location    x1    x2    x3    x4    x5
# <chr> <chr>  <chr>    <dbl> <dbl> <dbl> <dbl> <dbl>
# 1 A1    S.coli Indv1        1     2     3     4     5
# 2 A2    S.coli Indv2        1     2     3     4     5