熊猫升采样不包括一年中最后一天的23小时

问题描述

我有一个时间序列数据帧,其中包含日期|天气信息,如下所示:

enter image description here

2017-01-01 5
2017-01-02 10
.
.
2017-12-31 6

我正尝试使用以下方法将其上采样为每小时数据: weather.resample('H').pad()

我希望每24天* 365天可以看到8760个条目。但是,它只返回8737,而12月31日缺少最后23个间隔。我需要做些特别的事情来获得最后一天的24个间隔吗?

谢谢。

解决方法

Pandas将2017-12-31标准化为2017-12-31 00:00,然后创建一个以最后一个日期时间结束的范围...在重新采样之前,我将包括最后一行

df.loc['2018-01-01'] = 0

编辑: 您可以使用numpy.repeat

获得所需的结果

以这个df

np.random.seed(1)
weather = pd.DataFrame(index=pd.date_range('2017-01-01','2017-12-31'),data={'WEATHER_MAX': np.random.random(365)*15})

            WEATHER_MAX
2017-01-01     6.255330
2017-01-02    10.804867
2017-01-03     0.001716
2017-01-04     4.534989
2017-01-05     2.201338
...                 ...
2017-12-27     4.503725
2017-12-28     2.145087
2017-12-29    13.519627
2017-12-30     8.123391
2017-12-31    14.621106

[365 rows x 1 columns]

通过在axis=1上重复,您可以将默认的range(24)列名转换为每小时timediffs

# repeat,then stack
hourly = pd.DataFrame(np.repeat(weather.values,24,axis=1),index=weather.index).stack()

# combine date and hour
hourly.index = (
    hourly.index.get_level_values(0) +
    pd.to_timedelta(hourly.index.get_level_values(1),unit='h')
)
hourly = hourly.rename('WEATHER_MAX').to_frame()

输出

                     WEATHER_MAX
2017-01-01 00:00:00     6.255330
2017-01-01 01:00:00     6.255330
2017-01-01 02:00:00     6.255330
2017-01-01 03:00:00     6.255330
2017-01-01 04:00:00     6.255330
...                          ...
2017-12-31 19:00:00    14.621106
2017-12-31 20:00:00    14.621106
2017-12-31 21:00:00    14.621106
2017-12-31 22:00:00    14.621106
2017-12-31 23:00:00    14.621106

[8760 rows x 1 columns]
,

做什么和原因与@RichieV的答案相同。
但是,要使用的值不是0或无意义的值,有必要使用2018年1月1日实际测得的有效数据。

这是因为使用无意义的值会降低重新采样的2017-12-31数据以及使用该数据得出的结果的有效性。

  1. 在数据末尾为2018年1月1日准备一个有效值。
  2. 致电重新抽样。
  3. 重新采样后删除2018年1月1日的数据。
  4. 您将获得2017年的8670条数据。

看看@RichieV的修改答案:

我误会了这个问题。
我的答案是用插值等补充重采样。
resampleを用いた外挿 (データ補間) を行いたい

如果可以将当天的00:00设为相同的值,那将是另一种思维方式。