如何使用基于numpy的日期的窗口获取时间序列的回溯移动平均值?

我有这样的时间序:

                  times | data
1994-07-25 15:15:00.000 | 165
1994-07-25 16:00:00.000 | 165
1994-07-26 18:45:00.000 | 165

1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165

1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64

1994-07-29 14:15:00.000 | 62

1994-07-30 15:35:00.000 | 62
1994-07-30 16:55:00.000 | 61

我想对这些数据做一个回顾移动平均线,但是有一个基于日期的窗口,而不是行或日期时间.

例如,说lookback = 3天,然后是

1994-07-29 14:15:00.000 | 62

它的回顾移动平均值应该是平均值

1994-07-26 18:45:00.000 | 165

1994-07-27 15:15:00.000 | 165
1994-07-27 16:00:00.000 | 165

1994-07-28 18:45:00.000 | 165
1994-07-28 19:15:00.000 | 63
1994-07-28 20:35:00.000 | 64
1994-07-28 21:55:00.000 | 64

因为这是一个3天的回顾,所以平均将从1994-07-26开始3天,无论一天内有多少行.

此外,对于具有相同日期(不包括时间)的多行,其回溯移动平均值应该相同.

我怎样才能轻松实现这一目标?

最佳答案
我会使用pandas DatetimeIndex来累积每个日期的值.

然后,您可以使用rolling_mean计算所需的平均值.

import numpy as np
import pandas
df = pandas.DataFrame({'times': np.array(['1994-07-25 15:15:00.000','1994-07-25 16:00:00.000','1994-07-26 18:45:00.000','1994-07-27 15:15:00.000','1994-07-27 16:00:00.000','1994-07-28 18:45:00.000','1994-07-28 19:15:00.000','1994-07-28 20:35:00.000','1994-07-28 21:55:00.000','1994-07-29 14:15:00.000','1994-07-30 15:35:00.000','1994-07-30 16:55:00.000'],dtype='datetime64'),'data': [165,165,63,64,62,61]})
df = df.set_index('times')
g = df.groupby(df.index.date)
days = 3
pandas.rolling_mean(g.sum(),days)

这给出了:

1994-07-25         NaN
1994-07-26         NaN
1994-07-27  275.000000
1994-07-28  283.666667
1994-07-29  249.333333
1994-07-30  180.333333

您可能希望在rolling_mean上使用center和min_periods参数来获得所需的确切结果.

相关文章

功能概要:(目前已实现功能)公共展示部分:1.网站首页展示...
大体上把Python中的数据类型分为如下几类: Number(数字) ...
开发之前第一步,就是构造整个的项目结构。这就好比作一幅画...
源码编译方式安装Apache首先下载Apache源码压缩包,地址为ht...
前面说完了此项目的创建及数据模型设计的过程。如果未看过,...
python中常用的写爬虫的库有urllib2、requests,对于大多数比...