将偏移量合并到 Python 中的 sklearn 泊松决策树回归中？

问题描述

我正在研究如何最好地在 Python 中重现这样的 R 代码：

library(rpart) # "Recursive partitioning for classification,regression and survival trees". Default metric: Gini impurity
tree <- rpart(cbind(Exposure,ClaimNb) ~ Area + VehPower + VehAge + DrivAge 
              + BonusMalus + VehBrand + VehGas + Density + Region,dat,method="poisson",control=rpart.control(maxdepth=3,cp=0.001))      
#            complexity-parameter cp is used to control the number of splits

来源：https://www.kaggle.com/floser/glm-neural-nets-and-xgboost-for-insurance-pricing/comments

是否有一种优雅的方式将偏移量（在本例中为曝光）合并到 DecisionTreeRegressor 中？还是我只需要将响应变量除以偏移量？

顺便说一句，链接中的决策树图形真的非常好，似乎很难在 Python 中重现。一方面，除非您对分类变量进行热编码，否则 sklearn 决策树似乎无法处理分类变量，而且我还没有弄清楚如何让变量名称在决策树中很好地显示。>

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

decision-tree python r r scikit-learn