训练模型 - 我们尝试针对整个数据集构建预测的特定类别的数据有多少?

问题描述

我有一个包含分类列(击球手)的数据框。我试图在分类列中的每个类别中预测另一个连续变量(在每个球上运行)。

date         totalballs(to predict)   Batsman (category)     Runs on each ball (x variable)
2016-03-18          3                  Chris                                   1
2013-02-09         12                  Ben                                     2
2018-01-07          2                  Eoin                                    1

但是,每个类别都包含不同数量的数据。有些提供了连续列的 1000 个样本来训练模型,其他的则不到 12 个。 在具有大量数据的类别中,对特定于该类别的数据进行大量加权会很好,但在数据较少的类别中对整个数据集的权重更高

目前我使用的是线性回归模型(绝不是固定于此)。模型是否会自动权衡特定于分类 x/击球手列的数据点,通常比其他击球手重?如果是这样,与具有较少数据的击球手特定的数据点相比,具有更多数据的击球手的特定数据点的权重是否更大? 有没有办法让模型做到这一点?

目前,对于非常大的类别,我正在提取和训练特定于该类别的数据

dlem = df.copy()
m = dlem.batsman == "Chris Gayle"
dm = dlem[m]

x = dm.drop(['host','batsman','runsadded'],axis=1)
y = dn.runsadded

reg = LinearRegression().fit(x_train,y_train)

而对于较小的类别,我正在对整个数据集进行训练

x = df.drop(['host',axis=1)
y = df.runsadded

reg = LinearRegression().fit(x_train,y_train)

有没有办法在使用整体数据量和特定于相关类别的数据之间找到最佳状态?以及如何找到特定于每个不同大小的类别的最佳值?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...