在使用scikit_learn和pandas训练模型后，如何预测未来的数据以我的情况为降雨？

问题描述

我正在训练一个模型来预测未来的降雨数据。我已经完成了模型的训练。我正在使用此数据集：https://www.kaggle.com/redikod/historical-rainfall-data-in-bangladesh 看起来像这样：

              Station   Yea  Month Day Rainfall dayofyear
1970-01-01  1   Dhaka   1970    1   1   0           1
1970-01-02  1   Dhaka   1970    1   2   0           2
1970-01-03  1   Dhaka   1970    1   3   0           3
1970-01-04  1   Dhaka   1970    1   4   0           4
1970-01-05  1   Dhaka   1970    1   5   0           5

我已使用网上找到的代码作为参考，使用火车和测试数据完成了培训。然后我还检查了预测值和真实值。

这是代码，

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import tensorflow as tf

#data is in local folder
df = pd.read_csv("data.csv")
df.head(5)

df.drop(df[(df['Day']>28) & (df['Month']==2) & (df['Year']%4!=0)].index,inplace=True)
df.drop(df[(df['Day']>29) & (df['Month']==2) & (df['Year']%4==0)].index,inplace=True)
df.drop(df[(df['Day']>30) & ((df['Month']==4)|(df['Month']==6)|(df['Month']==9)|(df['Month']==11))].index,inplace=True)

date = [str(y)+'-'+str(m)+'-'+str(d) for y,m,d in zip(df.Year,df.Month,df.Day)]
df.index = pd.to_datetime(date)
df['date'] = df.index
df['dayofyear']=df['date'].dt.dayofyear
df.drop('date',axis=1,inplace=True)

df.head()
df.size()
df.info()

df.plot(x='Year',y='Rainfall',style='.',figsize=(15,5))

train = df.loc[df['Year'] <= 2015]
test = df.loc[df['Year'] == 2016]
train=train[train['Station']=='Dhaka']
test=test[test['Station']=='Dhaka']

X_train=train.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_train=train['Rainfall']
X_test=test.drop(['Station',axis=1)
Y_test=test['Rainfall']

from sklearn import svm
from sklearn.svm import SVC
model = svm.SVC(gamma='auto',kernel='linear')
model.fit(X_train,Y_train)

Y_pred = model.predict(X_test)

df1 = pd.DataFrame({'Actual Rainfall': Y_test,'Predicted Rainfall': Y_pred})  
df1[df1['Predicted Rainfall']!=0].head(10)

此后，我尝试实际使用该模型来预测未来几天/几个月/几年的降雨量。我使用了一些，例如一些用于股票价格的代码（在调整了代码之后）。但是它们似乎都不起作用。由于我已经训练过该模型，因此我认为仅在未来几天进行预测就容易了。假设我训练了1970-2015年的数据，并测试了2016年的数据。现在，我想预测2017年的降雨情况。

我的问题是，我怎么能以一种直观的方式做到这一点？

如果有人可以回答这个问题，我将非常感谢。

编辑@Mercury：这是使用该代码后的实际结果。我怀疑模型是否正在运行... 这是实际结果的图像：https://i.stack.imgur.com/81Vk1.png

解决方法

我在这里注意到一个非常简单的错误：

X_train=train.drop(['Station','StationIndex','dayofyear'],axis=1)
Y_train=train['Rainfall']
X_test=test.drop(['Station',axis=1)
Y_test=test['Rainfall']

您还没有从训练数据中删除Rainfall列。

我会做出一个大胆的假设，说您在培训和测试中都能获得100％的完美准确性，对吗？这就是原因。您的模型可以看到，训练数据中“降雨”列中显示的内容始终是答案，因此它可以在测试过程中准确地做到这一点，从而获得理想的结果-但实际上，它根本无法预测任何结果！

尝试这样运行：

X_train=train.drop(['Station','dayofyear','Rainfall'],axis=1)
Y_test=test['Rainfall']

from sklearn import svm
model = svm.SVC(gamma='auto',kernel='linear')
model.fit(X_train,Y_train)
print('Accuracy on training set: {:.2f}%'.format(100*model.score(X_train,Y_train)))
print('Accuracy on testing set: {:.2f}%'.format(100*model.score(X_test,Y_test)))

数据非常简单。如果您参加的是kaggle竞赛，那么可解释性并不是一个大问题，只有准确性，您可以使用任何复杂的模型并获得良好的结果。但是，如果我想获得可解释性，那么我将使用深度不超过4的决策树。减小深度，您将看到更通用的决策树。它将为您提供有关数据的深刻见解。

一些建议可能是

总共删除“日”，“月”列，该信息已经存储在“年”属性中（“ le年”实际上并不是什么大问题）。
您只剩下三列：年，站和年份。
查看“年份”列是否重要（在前2-3个深度中存在决策树的重要决策），如果不重要，则取消该列。在现实世界中，变化更加难以预测，模型的推广程度越高，效果越好。车站和一年中的一天是重要的考虑因素，不可忽略。

然后检查复杂模型，它们是否会提高您的准确性？他们可能会。

如果这样做，则使用它们，否则由于其较高的可解释性和更短的计算时间而坚持使用更简单的模型。

forecasting machine-learning python scikit-learn sklearn-pandas