将偏移量合并到 Python 中的 sklearn 泊松决策树回归中?

问题描述

我正在研究如何最好地在 Python 中重现这样的 R 代码

library(rpart) # "Recursive partitioning for classification,regression and survival trees". Default metric: Gini impurity
tree <- rpart(cbind(Exposure,ClaimNb) ~ Area + VehPower + VehAge + DrivAge 
              + BonusMalus + VehBrand + VehGas + Density + Region,dat,method="poisson",control=rpart.control(maxdepth=3,cp=0.001))      
#            complexity-parameter cp is used to control the number of splits

来源:https://www.kaggle.com/floser/glm-neural-nets-and-xgboost-for-insurance-pricing/comments

是否有一种优雅的方式将偏移量(在本例中为曝光)合并到 DecisionTreeRegressor 中?还是我只需要将响应变量除以偏移量?

顺便说一句,链接中的决策树图形真的非常好,似乎很难在 Python 中重现。一方面,除非您对分类变量进行热编码,否则 sklearn 决策树似乎无法处理分类变量,而且我还没有弄清楚如何让变量名称在决策树中很好地显示。>

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)