计算和收集日期之间的年份

问题描述

我有一个包含每个国家/地区选举日期的数据集。我想根据两次选举之间经过的年份创建一个变量，列出获胜者统治的所有年份。我知道某些选举数据可能会丢失（例如玩具示例中的 2004 年），并且政府可以规定的最大年数为 5。

toy <- data.frame(
  election_year=c(1995,1999,2009,2014),election_country=rep("A",4))

这就是我期望的结果：

toy_expected <- data.frame(
  election_year=c(1995,election_country =rep("A",4),ruling_year=c("1995 - 1996 - 1997 - 1998","1999 - 2000 - 2001 - 2002 - 2003","2009 - 2010 - 2011 - 2012 - 2013","2014 - 2015 - 2016 - 2017 - 2018"))

> toy_expected
  election_year election_city                      ruling_year
1          1995             A        1995 - 1996 - 1997 - 1998
2          1999             A 1999 - 2000 - 2001 - 2002 - 2003
3          2009             A 2009 - 2010 - 2011 - 2012 - 2013
4          2014             A 2014 - 2015 - 2016 - 2017 - 2018

解决方法

ruling_years <- function(x,y){
  r = c(x+1,x+2,x+3,x+4)
  r = setdiff(r,y)
  r = c(x,r)
  r = paste(r,collapse = " - ")
  return(r)
}


toy %>% 
  group_by(election_city) %>% 
  mutate(e_years=list(election_year),r=mapply(ruling_years,election_year,e_years)) %>% 
  select(-e_years)

以下是我要采取的步骤：

创建一个辅助函数，根据开始和结束生成一个统治年份字符串
计算每一行的结束年份 - 最初将其设置为下一个选举年，然后检查以确保这是一个有效数字（不是 NA 或结果超过 5 年）
映射开始和结束年份以生成列

library(dplyr)
library(purrr)

genYearString <- function(start,end){
  paste(seq(start,end),collapse = " - ")
}

toy %>% 
  mutate(
    end_year = dplyr::lead(election_year) - 1,end_year = if_else(
      is.na(end_year) | (end_year - election_year) > 4,election_year + 4,end_year
    ),ruling_year = map2_chr(election_year,end_year,genYearString)
  ) %>% 
  select(-end_year)