问题描述
**Date_time**
2018-06-26 17:19:30
2018-06-26 17:20:40
2018-06-26 17:20:41
2018-06-26 17:20:42
[...]
2018-06-26 17:21:36
2018-06-26 17:21:37
2018-06-26 17:21:38
2018-06-26 17:21:39
2018-06-26 17:23:15
我想对它进行二次采样,例如我获得了以下时间序列(即删除每秒记录的位置,以便粗略地仅保留 1 个位置/分钟)
**Date_time**
2018-06-26 17:19:30
2018-06-26 17:20:40
2018-06-26 17:21:39
2018-06-26 17:23:15
我写了以下代码(但我没有得到预期的时间序列)
tab_subsampled <- tab %>%
mutate(Date_Time = ymd_hms(Date_Time),year = year(Date_Time),month = month(Date_Time),day = day(Date_Time),hour = hour(Date_Time),minute = minute(Date_Time),second = second(Date_Time)) %>%
group_by(year,month,day,hour,minute) %>%
slice(n()) %>%
ungroup()
非常感谢您的帮助,非常感谢!
解决方法
您可以在整个 df 上使用 substr 和 dplyr。然后您可以在几分钟后删除所有内容,然后只允许唯一值,这样您每分钟只有一个数据点。
library(dplyr)
#Date_time
time<-c("2018-06-26 17:19:30","2018-06-26 17:20:40","2018-06-26 17:20:41","2018-06-26 17:20:42","2018-06-26 17:21:39","2018-06-26 17:23:15")
time<-as.data.frame(time)
colnames(time) = ("Date_time")
time<-time %>%
mutate(Date_time = substr(Date_time,1,13))
Date.Time_only_minutes<-unique(time$Date_time);Date.Time_only_minutes
,
只需sample_n
也可以
library(lubridate)
time<-c("2018-06-26 17:19:30","2018-06-26 18:20:42","2018-06-26 17:23:15","2018-07-26 17:20:30","2018-07-26 17:20:40","2018-08-26 18:20:41","2018-08-26 18:20:42","2018-09-26 17:21:39","2018-09-26 17:21:15")
time<-as.data.frame(time)
time
1 2018-06-26 17:19:30
2 2018-06-26 17:20:40
3 2018-06-26 17:20:41
4 2018-06-26 18:20:42
5 2018-06-26 17:21:39
6 2018-06-26 17:23:15
7 2018-07-26 17:20:30
8 2018-07-26 17:20:40
9 2018-08-26 18:20:41
10 2018-08-26 18:20:42
11 2018-09-26 17:21:39
12 2018-09-26 17:21:15
set.seed(1)
time %>% group_by(date(time),hour(time),minute(time)) %>%
sample_n(1) %>% ungroup() %>%
select(time)
# A tibble: 8 x 1
time
<chr>
1 2018-06-26 17:19:30
2 2018-06-26 17:20:41
3 2018-06-26 17:21:39
4 2018-06-26 17:23:15
5 2018-06-26 18:20:42
6 2018-07-26 17:20:30
7 2018-08-26 18:20:41
8 2018-09-26 17:21:39
请注意,您必须在 group_by 语句中添加其他 ID/分组变量才能在这些组中执行此操作。