如何在sklearn中进行train_test_split,但根据列的某个成员限制/指定输出?关闭

问题描述

我正在训练一个模型来进行天气数据预测。我在github上找到了一种方法,可以很好地处理SVM和SVC之类的东西。

它使用的数据集基本上是这样的, Dhaka is a city/station name

              Station   Yea  Month Day Rainfall dayofyear
1970-01-01  1   Dhaka   1970    1   1   0           1
1970-01-02  1   Dhaka   1970    1   2   0           2
1970-01-03  1   Dhaka   1970    1   3   0           3
1970-01-04  1   Dhaka   1970    1   4   0           4
1970-01-05  1   Dhaka   1970    1   5   0           5

整个数据集中大约有300万行,总共有35个'Station'。代码的作者使用它来指定测试和训练数据。他指定所有测试和火车数据将仅来自Station是Dhaka的条目。 另外,

train = df.loc[df['Year'] <= 2015]
test = df.loc[df['Year'] == 2016]
train=train[train['Station']=='Dhaka']
test=test[test['Station']=='Dhaka']

X_train=train.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_train=train['Rainfall']

X_test=test.drop(['Station',axis=1)
Y_test=test['Rainfall']

是否可以使用 sklearn.model_selection import train_test_split 执行相同的操作? 在哪里可以将条目限制为仅具有特定电台名称或年份的条目? 我解释得足够清楚了吗?对不起,英语不好,谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)