问题描述
我有一个看起来很简单的问题。我只是想不出如何搜索执行此操作的函数(或找到已经被问到类似问题的方法:-/)。我目前有一个看起来像这样的数据框:
sp1 sp2 dist
Viola_canadensis_ott1089589 Dasiphora_fruticosa_ott782136 8.043604e-311
Viola_nuttallii_ott203476 Dasiphora_fruticosa_ott782136 6.702821e-311
Parnassia_fimbriata_ott1035577 Dasiphora_fruticosa_ott782136 4.691921e-311
paxistima_myrsinites_ott381954 Dasiphora_fruticosa_ott782136 4.692195e-311
Dasiphora_fruticosa_ott782136 Sibbaldia_procumbens_ott176706 1.340783e-311
Dasiphora_fruticosa_ott782136 Fragaria_virginiana_ott1004791 2.680745e-311
Dasiphora_fruticosa_ott782136 Fragaria_vesca_ott852873 2.681018e-311
Dasiphora_fruticosa_ott782136 Geum_rossii_ott255461 2.681292e-311
此框架只有3列,大约11000行。请注意,我有50种想要以与该物种和ca相同的方式部分“移动”到sp1列的物种。 250种移到sp2列;我已经将这50种动物纳入载体。
我想做的是重新排列数据框,使其看起来像这样:
sp1 sp2 dist
Dasiphora_fruticosa_ott78213 Viola_canadensis_ott1089589 8.043604e-311
Dasiphora_fruticosa_ott78213 Viola_nuttallii_ott203476 6.702821e-311
Dasiphora_fruticosa_ott78213 Parnassia_fimbriata_ott1035577 4.691921e-311
Dasiphora_fruticosa_ott78213 paxistima_myrsinites_ott381954 4.692195e-311
Dasiphora_fruticosa_ott782136 Sibbaldia_procumbens_ott176706 1.340783e-311
Dasiphora_fruticosa_ott782136 Fragaria_virginiana_ott1004791 2.680745e-311
Dasiphora_fruticosa_ott782136 Fragaria_vesca_ott852873 2.681018e-311
Dasiphora_fruticosa_ott782136 Geum_rossii_ott255461 2.681292e-311
我知道使用dplyr一定很简单!!!!我只是之前从未遇到过这样的问题。
如果需要,这里是一个更长的例子:
key_species <- c("Dasiphora_fruticosa_ott782136","Erythronium_grandiflorum_ott653293")
sp1 sp2 dist
Aquilegia_elegantula_ott668865 Erythronium_grandiflorum_ott653293 6.703914e-312
Aquilegia_coerulea_ott192307 Erythronium_grandiflorum_ott653293 6.703914e-312
Corydalis_caseana_ott3944909 Erythronium_grandiflorum_ott653293 6.703914e-312
Erythronium_grandiflorum_ott653293 Selaginella_densa_ott1095392 6.701177e-312
Erythronium_grandiflorum_ott653293 Selaginella_scopulorum_ott5923066 6.701177e-312
Erythronium_grandiflorum_ott653293 Blepharostoma_trichophyllum_ott390604 1.340235e-311
Viola_canadensis_ott1089589 Dasiphora_fruticosa_ott782136 8.043604e-311
Viola_nuttallii_ott203476 Dasiphora_fruticosa_ott782136 6.702821e-311
Parnassia_fimbriata_ott1035577 Dasiphora_fruticosa_ott782136 4.691921e-311
paxistima_myrsinites_ott381954 Dasiphora_fruticosa_ott782136 4.692195e-311
Dasiphora_fruticosa_ott782136 Sibbaldia_procumbens_ott176706 1.340783e-311
Dasiphora_fruticosa_ott782136 Fragaria_virginiana_ott1004791 2.680745e-311
Dasiphora_fruticosa_ott782136 Fragaria_vesca_ott852873 2.681018e-311
Dasiphora_fruticosa_ott782136 Geum_rossii_ott255461 2.681292e-311
所需结果:
sp1 sp2 dist
Erythronium_grandiflorum_ott653293 Aquilegia_elegantula_ott668865 6.703914e-312
Erythronium_grandiflorum_ott653293 Aquilegia_coerulea_ott192307 6.703914e-312
Erythronium_grandiflorum_ott653293 Corydalis_caseana_ott3944909 6.703914e-312
Erythronium_grandiflorum_ott653293 Selaginella_densa_ott1095392 6.701177e-312
Erythronium_grandiflorum_ott653293 Selaginella_scopulorum_ott5923066 6.701177e-312
Erythronium_grandiflorum_ott653293 Blepharostoma_trichophyllum_ott390604 1.340235e-311
Dasiphora_fruticosa_ott78213 Viola_canadensis_ott1089589 8.043604e-311
Dasiphora_fruticosa_ott78213 Viola_nuttallii_ott203476 6.702821e-311
Dasiphora_fruticosa_ott78213 Parnassia_fimbriata_ott1035577 4.691921e-311
Dasiphora_fruticosa_ott78213 paxistima_myrsinites_ott381954 4.692195e-311
Dasiphora_fruticosa_ott782136 Sibbaldia_procumbens_ott176706 1.340783e-311
Dasiphora_fruticosa_ott782136 Fragaria_virginiana_ott1004791 2.680745e-311
Dasiphora_fruticosa_ott782136 Fragaria_vesca_ott852873 2.681018e-311
Dasiphora_fruticosa_ott782136 Geum_rossii_ott255461 2.681292e-311
很抱歉,如果这是转贴,我真的想不出一种很好的方法来进行搜索以查找类似的问题。
解决方法
我会尝试创建新的sp
列,而不是修改已有的列。然后,当它们看起来不错时,您可以删除旧列并重命名新列。
data %>%
mutate(new_sp1 = case_when(
sp1 %in% key_species ~ sp1,sp2 %in% key_species ~ sp2,TRUE ~ NA_character_
),new_sp2 = case_when(
sp1 %in% key_species ~ sp2,sp2 %in% key_species ~ sp1,TRUE ~ NA_character_
)
)