Tidymodels:在日期列中估算缺失值的正确方法是什么?

问题描述

我对 Date 列中的缺失值有点挣扎。 在我的预处理管道 (recipe-object) 中,我使用 step_impute_knn 函数填充所有日期列中的缺失值。不幸的是,我收到以下错误

分配的数据 pred_vals 必须与现有数据兼容。?列 avg_begin_first_contract .x 发生错误无法将双精度转换为日期

这是一个 reprex 版本,用于我在多列中估算值,包括 Date 列。如果我仅将值插补到 Date 列,这对我来说并不重要。结果是一样的。下面有一个 reprex,它不会通过错误,因为没有使用 Date 列。

以前有人遇到过这个问题吗?

library(tidyverse)
library(tidymodels)

iris <- iris %>%
  mutate(Plucked = sample(seq(as.Date("1999/01/01"),as.Date("2000/01/01"),by = "day"
  ),size = 150))

iris[45,2] <- as.numeric(NA)
iris[37,3] <- as.numeric(NA)
iris[78,4] <- as.numeric(NA)
iris[9,5] <- as.numeric(NA)
iris[15,6] <- as.factor(NA)

set.seed(456)

iris_split <- iris %>%
  initial_split(strata = Sepal.Length)


iris_training <- training(iris_split)
iris_testing <- testing(iris_split)

iris_rf_model <- rand_forest(
  mtry = 10,min_n = 10,trees = 500
) %>%
  set_engine("ranger") %>%
  set_mode("regression")


base_rec <- recipe(Sepal.Length ~ .,data = iris_training
) %>%
  step_impute_knn(Sepal.Width,Petal.Length,Petal.Width,Species,Plucked) %>%
  step_date(Plucked) %>%
  step_dummy(Species)

iris_workflow <- workflow() %>%
  add_model(iris_rf_model) %>%
  add_recipe(base_rec)

iris_rf_wkfl_fit <- iris_workflow %>%
  last_fit(iris_split)
#> x train/test split: preprocessor 1/1: Error: Assigned data `pred_vals` must be compatible wi...
#> Warning: All models Failed. See the `.notes` column.
Created on 2021-06-15 by the reprex package (v2.0.0)

这是 reprex,它不会通过错误

library(tidyverse)
library(tidymodels)

iris[45,5] <- as.numeric(NA)

set.seed(123)

iris_split <- iris %>% 
  initial_split(strata = Sepal.Length)

iris_training <- training(iris_split)
iris_testing <- testing(iris_split)

iris_rf_model <- rand_forest(
  mtry = 5,min_n = 5,trees = 500) %>%
  set_engine("ranger") %>%
  set_mode("regression")


base_rec <- recipe(Sepal.Length ~ .,data = iris_training) %>% 
  step_impute_knn(Sepal.Width,Species) %>%
  step_dummy(Species)

iris_workflow <- workflow() %>% 
  add_model(iris_rf_model) %>% 
  add_recipe(base_rec)

iris_rf_wkfl_fit <- iris_workflow %>%
  last_fit(split = iris_split)
Created on 2021-06-15 by the reprex package (v2.0.0)

提前致谢! 米。

解决方法

我想我找到了答案并想与您分享。关键是将日期转换为数值。然后插补很容易。这是一个 reprex

library(tidyverse)
library(tidymodels)

iris <- iris %>%
  mutate(Plucked = sample(seq(as.Date("1999/01/01"),as.Date("2000/01/01"),by = "day"
  ),size = 150))

iris[45,2] <- as.numeric(NA)
iris[37,3] <- as.numeric(NA)
iris[78,4] <- as.numeric(NA)
iris[9,5] <- as.numeric(NA)
iris[15,6] <- as.factor(NA)

set.seed(456)

iris_split <- iris %>%
  initial_split(strata = Sepal.Length)


iris_training <- training(iris_split)
iris_testing <- testing(iris_split)

iris_rf_model <- rand_forest(
  mtry = 10,min_n = 10,trees = 500
) %>%
  set_engine("ranger") %>%
  set_mode("regression")


base_rec <- recipe(Sepal.Length ~ .,data = iris_training
) %>% 
  step_mutate_at(
    where(lubridate::is.Date),fn = ~ as.numeric(lubridate::ymd(.x))
  ) %>%
  step_impute_bag(c("Plucked")) %>% 
  step_impute_knn(Sepal.Width,Petal.Length,Petal.Width,Species) %>%
  step_dummy(Species)

iris_workflow <- workflow() %>%
  add_model(iris_rf_model) %>%
  add_recipe(base_rec)

iris_rf_wkfl_fit <- iris_workflow %>%
  last_fit(iris_split)
#> ! train/test split: preprocessor 1/1,model 1/1: 10 columns were requested but there were 6 ...
Created on 2021-06-29 by the reprex package (v2.0.0)

如果您想在拟合之前从数字恢复到日期,可以通过在代码中添加以下行来实现:

step_mutate_at(c("Plucked"),fn = ~ as.Date(.x,origin = "1970-01-01 UTC"))

再次感谢, 米。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...