如何使用purrr在几个条件下替换值?

问题描述

帖子已于2020年8月17日进行编辑,以使示例看起来更像我的实际数据。

总是以1位或2位数字排在第一位。几个月来,无论是全部还是部分,总以法语排名第二。年份总是以2位或4位数字排在第三位。


我正在学习使用tidyverse软件包进行编码。如果它们符合特定条件,我将尝试用另一个字符串替换变量中的每个元素。问题是我当时只能做一个条件。我想知道如何一次达到几个条件。

这是可繁殖的例子:

library(tidyverse)
library(magrittr)
        
tib <- tibble(
  ID = 1:6,Date = c("1-JAN-20","15-JUILL-20","30 DEC 2020","1-JAN-20","30 DEC 2020"),Comm = c("Should be 2020-01-01","Should be 2020-06-15","Should be 2020-12-30","Should be 2020-01-01","Should be 2020-12-30"))
head(tib)

# A tibble: 6 x 3
     ID Date        Comm                
  <int> <chr>       <chr>               
1     1 1-JAN-20    Should be 2020-01-01
2     2 15-JUILL-20 Should be 2020-06-15
3     3 30 DEC 2020 Should be 2020-12-30
4     4 1-JAN-20    Should be 2020-01-01
5     5 15-JUILL-20 Should be 2020-06-15
6     6 30 DEC 2020 Should be 2020-12-30

# Returns the unique values of the character variables execept the "Comm" one. So,it
# returns only one in that case,but my original data have severals ones.
            
tib %>% select(where(is.character),-Comm) %>% map(~ unique(.x))
    
$Date
[1] "1-JAN-20"   "15-JUILL-20" "30 DEC 2020"

我们在这里!以下代码有效,但是我想知道是否有更好的方法来代替它,而不是每次都复制/传递相同的代码行并进行更改。

tib <- tib %>% mutate(Date = case_when(Date == "1-JAN-20" ~ "2020-01-01",Date == "15-JUILL-20" ~ "2020-06-15",Date == "30 DEC 2020" ~ "2020-12-01"))
head(tib)

# A tibble: 6 x 3
     ID Date       Comm                
  <int> <chr>      <chr>               
1     1 2020-01-01 Should be 2020-01-01
2     2 2020-06-15 Should be 2020-06-15
3     3 2020-12-01 Should be 2020-12-30
4     4 2020-01-01 Should be 2020-01-01
5     5 2020-06-15 Should be 2020-06-15
6     6 2020-12-01 Should be 2020-12-30

由于我将不得不对其他变量进行此操作,因此我该如何构建一个可以完成此操作的函数

此外,我想知道您是否知道一些好的文档/教程来学习Purrr软件包?

谢谢,祝你有美好的一天!

解决方法

也许您可以尝试dplyr :: case_when:

library(magrittr)
library(purrr)

# A tibble that looks like my data.
tib <- tibble(
  ID = 1:6,Date = c("01-JAN-20","15-JUN-20","30 DEC 2020","01-JAN-20","30 DEC 2020"),Comm = c("Should be 2020-01-01","Should be 2020-06-15","Should be 2020-12-30","Should be 2020-01-01","Should be 2020-12-30"))
head(tib)

tib %>% select(where(is.character),-Comm) %>% map(~ unique(.x))

tib <- tib %>% mutate(Date = dplyr::case_when(Date == "01-JAN-20" ~ "2020-01-01",Date == "15-JUN-20" ~ "2020-06-15",Date == "30 DEC 2020" ~ "2020-12-01"))

> tib
# A tibble: 6 x 3
     ID Date       Comm                
  <int> <chr>      <chr>               
1     1 2020-01-01 Should be 2020-01-01
2     2 2020-06-15 Should be 2020-06-15
3     3 2020-12-01 Should be 2020-12-30
4     4 2020-01-01 Should be 2020-01-01
5     5 2020-06-15 Should be 2020-06-15
6     6 2020-12-01 Should be 2020-12-30

此处最好的方法是使用“随时”包将Date列转换为Date类。尽管您将必须手动修复“日期”列,所以所有年份都为4位数字。如果年份始终是日期的最后一位,那可能很容易。

,

在处理日期/时间时,应使用标准的日期时间函数进行操作。不要使用str_replace一一替换日期。假设您有不同年份的1000个日期,实际上不可能列出每个日期。在这种情况下,您可以使用lubridate::dmy将它们转换为日期对象,对于更复杂的情况,有lubridate::parse_date_time可以将不同格式的变量转换为日期。

tib %>% dplyr::mutate(new_date = lubridate::dmy(Date))

#     ID Date        Comm                 new_date  
#  <int> <chr>       <chr>                <date>    
#1     1 01-JAN-20   Should be 2020-01-01 2020-01-01
#2     2 15-JUN-20   Should be 2020-06-15 2020-06-15
#3     3 30 DEC 2020 Should be 2020-12-30 2020-12-30
#4     4 01-JAN-20   Should be 2020-01-01 2020-01-01
#5     5 15-JUN-20   Should be 2020-06-15 2020-06-15
#6     6 30 DEC 2020 Should be 2020-12-30 2020-12-30

如果要以特定格式显示日期,可以在format上使用new_date函数。