如何摆脱 R 中的 for 循环并在交叉验证模型中使用 t apply 函数？

问题描述

以下是使用 for 循环进行 $k$-fold 交叉验证的算法：

library(tidyverse)

default.data <- read.csv("Default.csv",stringsAsFactors = T)
k <- 10
obs <- nrow(default.data)

set.seed(1)
partition <- (1:obs) %% k + 1 
fold <- sample(partition,length(partition))


##################################################

logistic.fit <- vector("list",k)
logistic.prob <- vector("numeric",obs)  
logistic.pred <- rep("No",obs)

for (i in 1:k) {
  
  logistic.fit[[i]] <- glm(default ~ student + balance,family = binomial,data = default.data[fold!= i,])
  logistic.prob[fold == i] <- predict(logistic.fit[[i]],default.data[fold==i,],type="response")

}


logistic.pred[logistic.prob > 0.5] <- "Yes"
result <- mean(default.data["default"] != logistic.pred)

我不知道如何使用 tapply() 函数（请参见下文）重写哈希标签行之间的代码，该函数应用匿名函数来计算分类错误的数量（而不是错误率） ) 在每个折叠上。

输出是一个向量，包含每个折叠的错误数，将进一步由 %>% sum 聚合并除以观察总数以产生错误率。

随意删除您认为不必要的内容。

您可能需要一个名为 logistic.pred 的局部变量来计算和存储中间结果。但是这个局部变量会比上面代码中的对应变量小得多，因为它只存储折叠的中间结果。

tapply(1:obs,fold,function(idx){
         
         # Eidt me
         
         }
       ) %>% sum %>% `/`(obs)

Default.csv

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

cross-validation for-loop r r tapply