将伪变量转换为分类变量

问题描述

这是我的数据框

data<-data.frame(
ID=c(1:8),Diag1=c(1,1,0),Diag2=c(0,Diag3=c(0,Multiple.Diag=c(0,0)
)

我的患者有不同的诊断，其中一些有多个诊断。这些诊断是伪变量，需要将其转换为分类变量。如果患者患有Mult.diag==1，则他的诊断将是Multiple.diag，否则他的诊断将是Diag1，Diag2或Diag3。如果患者的全部变量为0，则诊断为"Other"。

这就是我想要的：

  ID     Diagnosis
1  1         Diag1
2  2         Diag2
3  3 Multiple.Diag
4  4 Multiple.Diag
5  5         Diag1
6  6         Diag3
7  7 Multiple.Diag
8  8         Other

解决方法

这里是max.col的一个选项，用于在“诊断”列的子集的每一行中找到具有最高值的列的索引，使用该索引获取列名，然后将这些元素更改为“ “ Multiple.Diag”（其为1，如果连续没有1），则使用使用rowSums

创建的逻辑表达式将其归类为“其他”。

代码

out <- cbind(data['ID'],Diagnosis = names(data)[-1][
              max.col(data[startsWith(names(data),'Diag')],'first')])
i1 <- as.logical(data$Multiple.Diag)
out$Diagnosis[i1] <- 'Multiple.Diag'
i2 <- rowSums(data[-1]) == 0
out$Diagnosis[i2] <- 'Other'

-输出

out
#  ID     Diagnosis
#1  1         Diag1
#2  2         Diag2
#3  3 Multiple.Diag
#4  4 Multiple.Diag
#5  5         Diag1
#6  6         Diag3
#7  7 Multiple.Diag
#8  8         Other

max.col是矢量化的，应该非常快

或者另一种选择是将which与arr.ind = TRUE一起使用

m1 <- which(data[-1] == 1,arr.ind = TRUE)
cbind(data['ID'],Diagnosis = ifelse(rowSums(data[-1]) == 0,'Other',names(data)[-1][tapply(m1[,2],m1[,1],FUN = max)]))

-输出

#  ID     Diagnosis
#1  1         Diag1
#2  2         Diag2
#3  3 Multiple.Diag
#4  4 Multiple.Diag
#5  5         Diag1
#6  6         Diag3
#7  7 Multiple.Diag
#8  8         Other

或通过相同的方法使用tidyverse

library(dplyr)
data %>% 
   transmute(ID,Diagnosis = case_when(rowSums(.[-1]) == 0 ~ "Other",TRUE ~ names(.)[-1][max.col(.[-1],'last')]))

-输出

#  ID     Diagnosis
#1  1         Diag1
#2  2         Diag2
#3  3 Multiple.Diag
#4  4 Multiple.Diag
#5  5         Diag1
#6  6         Diag3
#7  7 Multiple.Diag
#8  8         Other

或者是我们将rowwise与c_across一起使用的另一种选择

data %>%
   rowwise %>% 
   transmute(ID,Diagnosis = coalesce(case_when(as.logical(Multiple.Diag) 
    ~ 'Multiple.Diag',TRUE ~ names(.)[-1][as.logical(c_across(-1))][1] ),'Other'))

-输出

# A tibble: 8 x 2
# Rowwise: 
#     ID Diagnosis    
#  <int> <chr>        
#1     1 Diag1        
#2     2 Diag2        
#3     3 Multiple.Diag
#4     4 Multiple.Diag
#5     5 Diag1        
#6     6 Diag3        
#7     7 Multiple.Diag
#8     8 Other

您可以像这样使用apply()和内置函数。您可以将结果添加到原始data或保存在新的数据框中。函数myfunc根据您提到的说明提取要处理的变量的名称。这里的代码：

#Code
myfunc <- function(x)
{
  y <- names(x)[max(which(x==1))]
  if(is.na(y))
  {
    y <- 'Others'
  }
  return(y)
}
#Add var
data$Var <- apply(data[,-1],1,myfunc)

输出：

  ID Diag1 Diag2 Diag3 Multiple.Diag           Var
1  1     1     0     0             0         Diag1
2  2     0     1     0             0         Diag2
3  3     1     0     0             1 Multiple.Diag
4  4     0     1     1             1 Multiple.Diag
5  5     1     0     0             0         Diag1
6  6     0     0     1             0         Diag3
7  7     1     1     1             1 Multiple.Diag
8  8     0     0     0             0        Others

您还可以使用tidyverse：

data %>% 
  pivot_longer(-ID) %>%
  group_by(ID) %>%
  slice(which.max(as.integer(factor(name))*value))%>%
  mutate(name = if_else(value == 0,'other',name),value= NULL)
 # A tibble: 8 x 2
# Groups:   ID [8]
     ID name         
  <int> <chr>        
1     1 Diag1        
2     2 Diag2        
3     3 Multiple.Diag
4     4 Multiple.Diag
5     5 Diag1        
6     6 Diag3        
7     7 Multiple.Diag
8     8 other

categorical-data dplyr dummy-variable r r