[Python、pandas]：每辆车每天跑公里数

问题描述

我试图输出一个表格，在那里我可以看到每辆车每天行驶的公里数，但我得到的计算是错误的。

给出我拥有的一小段数据。每辆车每天将其当前里程表读数发送到中央服务器数百次。

TS                          DATE               VEH          odoMETER
2021-03-12 12:58:15.500     2021-03-12         008              2932
2021-03-12 00:00:21.700     2021-03-12         002             64253
2021-03-12 00:02:21.500     2021-03-12         002             64254
2021-03-12 00:03:41.400     2021-03-12         002             64255
2021-03-12 00:05:38.200     2021-03-12         002             64256
...                         ...                ...             ...
2021-03-12 23:55:88.100     2021-03-12         002             64953
2021-03-12 00:05:38.200     2021-03-13         002             64954

在上面的例子中应该很清楚，2021-03-12 车辆 2 的第一个和最后一个里程表读数是 64953-64253 = 700 公里但是第二天的第一个读数是 64954，因此将当天第一个和最后一个里程表值之间的 diff() 分组，一些公里正在消失，如下所示

def grp_odo(dfObj):
    dfObj['odoMETER'] = dfObj['odoMETER'].astype(int)
    dfObj["km"] = dfObj.groupby(["DATE","VEH"])["odoMETER"].diff()

    sum_km = dfObj.groupby(["DATE","VEH"],as_index=False)["km"].sum()

    return sum_km

dfodo = grp_odo(df[['DATE','VEH','odoMETER']].loc[(~pd.isna(df['odoMETER']))])

打印 groupby 每天的里程表差异：

print(dfodo)

            DATE WSTRPVID     km
0     2021-01-01      001  523.0
1     2021-01-01      002  700.0
2     2021-01-01      003  781.0
3     2021-01-01      004    2.0
4     2021-01-01      005  553.0
...          ...      ...    ...
3375  2021-04-09      034  802.0
3376  2021-04-09      035  615.0
3377  2021-04-09      036  778.0
3378  2021-04-09      038  425.0
3379  2021-04-09      039  386.0

打印分组数据从开始到结束车辆行驶总公里数的总和。

print(dfodo[dfodo.VEH== "002"].sum())
km: 36796

打印数据框中最高和最低里程表值的总和

print(df[df.VEH== "002"].groupby('VEH')['odoMETER'].agg(np.ptp))

VEH
002    36898
Name: odoMETER,dtype: int64

我想要一个输出，其中 2021-03-12 是 701km，所以 2021-03-12 的第一个值和 2021-03-13 的第一个值之间存在差异，这可能吗？

解决方法

输入：

>>> df
                       TS       DATE  VEH  ODOMETER
0 2021-03-12 12:58:15.500 2021-03-12  008    2932.0
1 2021-03-12 00:00:21.700 2021-03-12  002   64253.0
2 2021-03-12 00:02:21.500 2021-03-12  002   64254.0
3 2021-03-12 00:03:41.400 2021-03-12  002   64255.0
4 2021-03-12 00:05:38.200 2021-03-12  002   64256.0
5 2021-03-12 23:55:48.100 2021-03-12  002   64953.0
6 2021-03-12 00:05:38.200 2021-03-13  002   64954.0

输出：

>>> df.assign(TOTAL=df.groupby("VEH")["ODOMETER"].shift(-1) - df["ODOMETER"]) \ 
      .groupby(["DATE","VEH"]).sum()["TOTAL"]
DATE        VEH
2021-03-12  002    701.0
            008      0.0
2021-03-13  002      0.0
Name: TOTAL,dtype: float64

df = pd.DataFrame({'DATE': ['2021-03-12','2021-03-12','2021-03-13'],'VEH': ['008','002',],'ODOMETER': [2932,64253,64254,64255,64256,64953,64954]})

df.sort_values(['VEH','DATE'],inplace=True)


         DATE  VEH  ODOMETER
1  2021-03-12  002     64253
2  2021-03-12  002     64254
3  2021-03-12  002     64255
4  2021-03-12  002     64256
5  2021-03-12  002     64953
6  2021-03-13  002     64954
0  2021-03-12  008      2932

为每个车辆、日期组创建一个采用最小 ODOMETER 值的列

dff = df.groupby(['VEH',as_index=False).agg({'ODOMETER': 'min'})

   VEH        DATE  ODOMETER
0  002  2021-03-12     64253
1  002  2021-03-13     64954
2  008  2021-03-12      2932

车辆组每个日期之间的差异。

dff['TOTAL_DIST'] = dff.groupby('VEH')['ODOMETER'].shift(-1)-dff.groupby('VEH')['ODOMETER'].shift(0)

   VEH        DATE  ODOMETER  TOTAL_DIST
0  002  2021-03-12     64253       701.0
1  002  2021-03-13     64954         NaN
2  008  2021-03-12      2932         NaN

您可以将 2 个连续的 df.groupby() 与 GroupBy.first() 和 shift() 一起使用，如下所示：

df_daily = df.groupby(['DATE','VEH'],as_index=False)['ODOMETER'].first()
df_daily['km_diff'] = df_daily.groupby('VEH')['ODOMETER'].shift(-1) - df_daily.groupby('VEH')['ODOMETER'].shift(0)

试运行

测试数据构建

cols= ['TS','DATE','VEH','ODOMETER']
data = [
['2021-03-12 12:58:15.500','008',2932],['2021-03-13 12:58:15.500','2021-03-13',3032],['2021-03-12 00:00:21.700',64253],['2021-03-12 00:02:21.500',64254],['2021-03-12 00:03:41.400',64255],['2021-03-12 00:05:38.200',64256],['2021-03-12 23:55:88.100',64953],64954]
]
df = pd.DataFrame(data,columns=cols)
print(df)


                        TS        DATE  VEH  ODOMETER
0  2021-03-12 12:58:15.500  2021-03-12  008      2932
1  2021-03-13 12:58:15.500  2021-03-13  008      3032       <=== Added this test data
2  2021-03-12 00:00:21.700  2021-03-12  002     64253
3  2021-03-12 00:02:21.500  2021-03-12  002     64254
4  2021-03-12 00:03:41.400  2021-03-12  002     64255
5  2021-03-12 00:05:38.200  2021-03-12  002     64256
6  2021-03-12 23:55:88.100  2021-03-12  002     64953
7  2021-03-12 00:05:38.200  2021-03-13  002     64954

运行新代码

df_daily = df.groupby(['DATE',as_index=False)['ODOMETER'].first()
df_daily['km_diff'] = df_daily.groupby('VEH')['ODOMETER'].shift(-1) - df_daily.groupby('VEH')['ODOMETER'].shift(0)

结果：

print(df_daily)



         DATE  VEH  ODOMETER  km_diff
0  2021-03-12  002     64253    701.0
1  2021-03-12  008      2932    100.0
2  2021-03-13  002     64954      NaN
3  2021-03-13  008      3032      NaN

pandas pandas python

[Python、pandas]：每辆车每天跑公里数

问题描述

解决方法

试运行

相关问答