问题描述
我正在尝试根据列名将数据从宽格式转换为长格式,我可以使用tidyr::pivot_longer()
轻松完成。但是,我还需要以较宽的格式来解构特定单元格的内容(即,解析其中的字符串),并沿枢轴(较长)的行分隔已解析的组件。使用stringr::separate_rows
可以轻松完成解析和分离任务,但我不知道如何在同一镜头中结合使用旋转和分离过程。
数据
df <- data.frame(
id = 1:3,blue_type1 = 110:112,purple_type5 = 5:7,black_type1 = 28:30,batch_number = c("bgd | ddg | qwe","afp | qqw | edt","pqr | khp | rty")
)
df
## id blue_type1 purple_type5 black_type1 batch_number
## 1 1 110 5 28 bgd | ddg | qwe
## 2 2 111 6 29 afp | qqw | edt
## 3 3 112 7 30 pqr | khp | rty
我想要什么
转换为长格式并解压缩batch_number
,以便将第一子字符串以长格式分配给第一行,将第二子字符串分配给第二行,将第三子字符串分配给第三行。
所需的输出
## # A tibble: 9 x 5
## id batch_number color type vals
## <dbl> <chr> <chr> <dbl> <dbl>
## 1 1 bgd blue 1 110
## 2 1 ddg purple 5 5
## 3 1 qwe black 1 28
## 4 2 afp blue 1 111
## 5 2 qqw purple 5 6
## 6 2 edt black 1 29
## 7 3 pqr blue 1 112
## 8 3 khp purple 5 7
## 9 3 rty black 1 30
我的尝试
如果我只是tidyr::pivot_longer
,我将到达一半:
df %>%
pivot_longer(.,-c(id,batch_number),names_to = c("color","type"),names_pattern = "(.*)_type(.)",values_to = "vals")
## # A tibble: 9 x 5
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd | ddg | qwe blue 1 110
## 2 1 bgd | ddg | qwe purple 5 5
## 3 1 bgd | ddg | qwe black 1 28
## 4 2 afp | qqw | edt blue 1 111
## 5 2 afp | qqw | edt purple 5 6
## 6 2 afp | qqw | edt black 1 29
## 7 3 pqr | khp | rty blue 1 112
## 8 3 pqr | khp | rty purple 5 7
## 9 3 pqr | khp | rty black 1 30
如果我尝试stringr::separate_rows
最重要的是,我会得到不想要的输出:
## # A tibble: 27 x 5
## # Groups: id [3]
## id batch_number color type vals
## <int> <chr> <chr> <chr> <int>
## 1 1 bgd blue 1 110
## 2 1 ddg blue 1 110
## 3 1 qwe blue 1 110
## 4 1 bgd purple 5 5
## 5 1 ddg purple 5 5
## 6 1 qwe purple 5 5
## 7 1 bgd black 1 28
## 8 1 ddg black 1 28
## 9 1 qwe black 1 28
## 10 2 afp blue 1 111
## 11 2 qqw blue 1 111
## 12 2 edt blue 1 111
## 13 2 afp purple 5 6
## 14 2 qqw purple 5 6
## 15 2 edt purple 5 6
## 16 2 afp black 1 29
## 17 2 qqw black 1 29
## 18 2 edt black 1 29
## 19 3 pqr blue 1 112
## 20 3 khp blue 1 112
## 21 3 rty blue 1 112
## 22 3 pqr purple 5 7
## 23 3 khp purple 5 7
## 24 3 rty purple 5 7
## 25 3 pqr black 1 30
## 26 3 khp black 1 30
## 27 3 rty black 1 30
在运行separate_rows
时如何合并pivot_longer
的操作?有没有一种优雅的方法可以完成这样的任务?基本上,我正在寻找一种tidyverse
解决方案,但也会对其他方法感到满意。
解决方法
也许有一个更短,更优雅的解决方案,但与此同时您可以尝试一下。基本思想是
- 在调用
batch
之前添加批处理标识符(id
)(由tidyr::separate_rows
) - 在
tidyr::separate_rows
和batch_number
标识符相等的obs的batch
之后过滤。对于最后一步,我首先使用batch_number
将forcats::fct_inorder
转换为一个因数,然后转换为一个数字,该数字为我提供batch_number
的位置,然后可以将其与batch
标识符匹配
set.seed(42)
df <- data.frame(
id = 1:3,blue_type1 = 110:112,purple_type5 = 5:7,black_type1 = 28:30,batch_number = c("bgd | ddg | qwe","afp | qqw | edt","pqr | khp | rty")
)
library(dplyr)
library(tidyr)
library(forcats)
df %>%
pivot_longer(-c(id,batch_number)) %>%
group_by(id) %>%
mutate(batch = row_number()) %>%
separate_rows(batch_number) %>%
filter(batch == as.numeric(forcats::fct_inorder(batch_number)))
#> # A tibble: 9 x 5
#> # Groups: id [3]
#> id batch_number name value batch
#> <int> <chr> <chr> <int> <int>
#> 1 1 bgd blue_type1 110 1
#> 2 1 ddg purple_type5 5 2
#> 3 1 qwe black_type1 28 3
#> 4 2 afp blue_type1 111 1
#> 5 2 qqw purple_type5 6 2
#> 6 2 edt black_type1 29 3
#> 7 3 pqr blue_type1 112 1
#> 8 3 khp purple_type5 7 2
#> 9 3 rty black_type1 30 3
,
您可以在旋转后将字符串分配给batch_number。
library(dplyr)
library(tidyr)
library(stringr)
df %>%
group_by(id) %>%
mutate(batch_index = seq.int(1,n()*6,6)) %>%
ungroup() %>%
mutate(batch_number = str_sub(batch_number,batch_index,batch_index+2)) %>%
select(-batch_index)
# id batch_number color type vals
# <int> <chr> <chr> <chr> <int>
# 1 1 bgd blue 1 110
# 2 1 ddg purple 5 5
# 3 1 qwe black 1 28
# 4 2 afp blue 1 111
# 5 2 qqw purple 5 6
# 6 2 edt black 1 29
# 7 3 pqr blue 1 112
# 8 3 khp purple 5 7
# 9 3 rty black 1 30
请注意,mutate(batch_index = seq.int(1,6))
将一个名为batch_index的列添加到数据框(按ID分组)。在每一行中,batch_index用于将字符串分配给batch_number。 batch_index由seq.int(1,6)
产生,并且由1到n()*6
之间的整数组成(即,当前组中的行数乘以6-请注意,最终值不必这么高)。序列中的数字相隔六个:1,7,13 ...
mutate(batch_number = str_sub(batch_number,batch_index+2)
使用batch_index在每行的batch_number中将字符串子集化。组中的第一行需要batch_number中的第一个子字符串-因此该函数将batch_number中的batch_number子集从batch_index(即1)到batch_index + 2(即3)。组中的第二行需要batch_number中的第二个子字符串-该函数因此将batch_number从batch_index(即7)子集到batch_index + 2(即9)等。
如果批处理编号中的所有子字符串都由三个字母组成,则此方法有效。
,在separate_rows
之后,您可以在pull
内使用mutate
和pivot_longer
:
df %>%
pivot_longer(-c(id,batch_number),names_to = c("color","type"),names_pattern = "(.*)_type(.)",values_to = "vals") %>%
mutate(batch_number =
df %>%
separate_rows(batch_number,sep = " \\| ") %>%
pull(batch_number)
)
# A tibble: 9 x 5
id batch_number color type vals
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 ddg purple 5 5
3 1 qwe black 1 28
4 2 afp blue 1 111
5 2 qqw purple 5 6
6 2 edt black 1 29
7 3 pqr blue 1 112
8 3 khp purple 5 7
9 3 rty black 1 30
,
使用separate_rows()
中的tidyr
并使用顺序ID来尝试此选项:
library(tidyverse)
#Code
df <- df %>% separate_rows(batch_number,sep='\\|') %>%
mutate(batch_number=trimws(batch_number)) %>%
group_by(id) %>% mutate(Val=1:n()) %>%
pivot_longer(-c(id,batch_number,Val)) %>%
separate(name,c('color','type'),sep='_') %>%
mutate(type=gsub('type','',type),Flag=ifelse(id==Val,1,0)) %>%
filter(Flag==1) %>% select(-c(Flag,Val))
输出:
# A tibble: 9 x 5
# Groups: id [3]
id batch_number color type value
<int> <chr> <chr> <chr> <int>
1 1 bgd blue 1 110
2 1 bgd purple 5 5
3 1 bgd black 1 28
4 2 qqw blue 1 111
5 2 qqw purple 5 6
6 2 qqw black 1 29
7 3 rty blue 1 112
8 3 rty purple 5 7
9 3 rty black 1 30