问题描述
我想使用mlr3
在不同数据子集上训练模型,而我想知道是否有一种方法可以在管道中对不同数据子集训练模型。
我想做的事情与R for Data Science - Chapter 25: Many models中的示例相似。假设我们使用相同的数据集gapminder
,该数据集包含世界各国的不同变量,例如GDP和预期寿命。如果我想训练每个国家的预期寿命模型,是否有一种简单的方法可以使用mlr3
创建这样的渠道?
理想情况下,我想使用mlr3pipelines
在图形中为每个子集(例如,每个国家/地区有一个单独的分支)创建一个分支,并在最后添加模型。因此,最终图将在单个节点上开始,并在末端节点上有n
个受过训练的学习者,数据集中每个组(即国家/地区)一个,或者是一个汇总结果的最终节点。我也希望它能用于新数据,例如,如果我们在2020年将来获得新数据,我希望它能够使用针对特定国家/地区训练的模型为每个国家/地区创建预测。
我发现的所有mlr3
示例似乎都涉及整个数据集的模型,或者对模型进行了训练集中的所有组的训练。
当前,我只是为每组数据手动创建一个单独的任务,但是将数据子集步骤合并到建模管道中会很好。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)