如何在sklearn中进行train_test_split，但根据列的某个成员限制/指定输出？关闭

问题描述

我正在训练一个模型来进行天气数据预测。我在github上找到了一种方法，可以很好地处理SVM和SVC之类的东西。

它使用的数据集基本上是这样的， Dhaka is a city/station name

              Station   Yea  Month Day Rainfall dayofyear
1970-01-01  1   Dhaka   1970    1   1   0           1
1970-01-02  1   Dhaka   1970    1   2   0           2
1970-01-03  1   Dhaka   1970    1   3   0           3
1970-01-04  1   Dhaka   1970    1   4   0           4
1970-01-05  1   Dhaka   1970    1   5   0           5

整个数据集中大约有300万行，总共有35个'Station'。代码的作者使用它来指定测试和训练数据。他指定所有测试和火车数据将仅来自Station是Dhaka的条目。另外，

train = df.loc[df['Year'] <= 2015]
test = df.loc[df['Year'] == 2016]
train=train[train['Station']=='Dhaka']
test=test[test['Station']=='Dhaka']

X_train=train.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_train=train['Rainfall']

X_test=test.drop(['Station',axis=1)
Y_test=test['Rainfall']

是否可以使用 sklearn.model_selection import train_test_split 执行相同的操作？在哪里可以将条目限制为仅具有特定电台名称或年份的条目？我解释得足够清楚了吗？对不起，英语不好，谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

python-3.x scikit-learn train-test-split