问题描述
我正在研究如何最好地在 Python 中重现这样的 R 代码:
library(rpart) # "Recursive partitioning for classification,regression and survival trees". Default metric: Gini impurity
tree <- rpart(cbind(Exposure,ClaimNb) ~ Area + VehPower + VehAge + DrivAge
+ BonusMalus + VehBrand + VehGas + Density + Region,dat,method="poisson",control=rpart.control(maxdepth=3,cp=0.001))
# complexity-parameter cp is used to control the number of splits
来源:https://www.kaggle.com/floser/glm-neural-nets-and-xgboost-for-insurance-pricing/comments
是否有一种优雅的方式将偏移量(在本例中为曝光)合并到 DecisionTreeRegressor 中?还是我只需要将响应变量除以偏移量?
顺便说一句,链接中的决策树图形真的非常好,似乎很难在 Python 中重现。一方面,除非您对分类变量进行热编码,否则 sklearn 决策树似乎无法处理分类变量,而且我还没有弄清楚如何让变量名称在决策树中很好地显示。>
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)