问题描述
我正在使用决策树构建回归器。 我正在尝试找到最好的方法,以获得我要调整的四个主要参数的完美组合: 成本复杂度,最大深度,最小拆分,最小存储桶大小
我知道有几种方法可以确定成本复杂度(CP)参数,但如何确定要使用的所有4种参数,以使最终结果具有最小的误差?
下面的可复制示例:
library(rpart)
set.seed(1234)
train_index <- sample(nrow(Boston),0.75*nrow(Boston))
boston_train <- Boston[train_index,]
boston_test <- Boston[-train_index,]
prune_control <- rpart.control(maxdepth = 5,cp = 0.005,minbucket = 20,minsplit =20 ) #numbers are just representative having no real significance
boston.rpart <- rpart(medv ~ .,data = boston_train,method = "anova",control = prune_control)
train_pred <- predict(object = boston.rpart)
test_pred <- predict(boston.rpart,boston_test)
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)