熊猫-具有可变长度滚动窗口的聚合值

问题描述

以下数据帧用作输入：

import pandas as pd
import numpy as np

json_string = '{"datetime":{"0":1528955662000,"1":1528959255000,"2":1528965487000,"3":1528966204000,"4":1528966289000,"5":1528971637000,"6":1528974438000,"7":1528975251000,"8":1528982200000,"9":1528992569000,"10":1528994282000},"hit":{"0":1,"1":0,"2":0,"3":0,"4":0,"5":1,"6":1,"7":0,"8":1,"9":0,"10":1}}'
df = pd.read_json(json_string)

该练习要求您为每个时刻（hit）计算datetime列的平均值。但是，当前的观察结果不应包含在平均值中。例如，第一个观测值（index = 0）的值为np.NaN，因为除了要计算平均值的观测值外，没有其他观测值。由于1/1 = 1，第二个观察值（index = 1）变为1（不包括第二个观察值的0）。由于（1 + 0）/2=0.5，第三次观察（index = 2）变为0.5。

我的代码提供了正确的答案（以数字表示），但是不够优雅。我想知道您是否可以用其他方法完成练习。可以使用pandas.api.indexers.VariableOffsetwindowIndexer或pandas.api.indexers.BaseIndexer然后使用get_window_bounds()方法吗？

我的解决方案：

def add_hr(df):
    """
    Generate a feature `mean_hr` which represents the average hit rate
    at the moment of making the offer (`datetime`).

    Parameters
    ----------
    df : pandas.DataFrame
        The `hit` column must be present. Ascending/descending order in the `datetime`
        column is not assumed.

        hit : int
        datetime : string (format='%Y-%m-%d %H:%M:%s')

    Returns
    ----------
    df_expanded : pandas.DataFrame
        A (deep) copy of the input pandas.DataFrame.
    """

    df_expanded = df.copy(deep=True)

    df_expanded.sort_values(by=['datetime'],ascending=True,inplace=True)

    df_expanded['mean_hr'] = df_expanded['hit'].expanding().mean()

    srs = df_expanded['mean_hr']

    srs = srs[:len(srs)-1]
    srs = pd.concat([pd.Series([np.nan]),srs])
    df_expanded['mean_hr'] = srs.tolist()

    return df_expanded

完全免责声明：该演习是一个月前招聘过程的一部分。招聘工作现已结束，我无法再提交代码。

解决方法

您要实现的目标的一个简单版本只是简单地将扩展均值的索引移动如下所示

df.sort_values(by=['datetime'],inplace=True)
df['mean_hit'] = df.expanding().mean().shift(1)

似乎可以通过将BaseIndexer类子类化来解决此问题：

from pandas.api.indexers import BaseIndexer

class CustomIndexer(BaseIndexer):
    
    def get_window_bounds(self,num_values,min_periods,center,closed):
        
        start = np.zeros(num_values,dtype='int64')
        end = np.arange(0,dtype='int64')
        
        return start,end  
    
indexer = CustomIndexer(window_size=0)

df_expanded = df.copy(deep=True)

df_expanded = df_expanded.rolling(indexer).mean()

dataframe numpy pandas python rolling-computation