有什么办法可以正确地将两个时间序列与熊猫中不同的暗点合并?

问题描述

我打算在熊猫中加入两个不同维度的时间序列。第一个时间序列是关于covid19每日案例数据,而第二个时间序列是关于食品加工厂的每日切割统计数据,然后我想通过其公共列将合并的数据框与另一个数据连接起来。首先,我想按日期将它们加入某些说明中。在covid案例时间序列中,数据是按县级别记录的,而在每日截割时间序列中,有每日截割统计信息,可以是每个县的平均每日割裂时间序列,也可以是均匀分布的。为了使加入这两个时间序列更加合乎逻辑,我进行了一些汇总并尝试加入,但未按预期工作。谁能建议在熊猫中实现这一目标的可能方法?有想法吗?

当前尝试和可再现的数据

这里daily cut time series来自NYT covid19数据,this data来自食品加工机构。这是我目前的尝试:

import pandas as pd

df1= pd.read_csv("us_covid_by_counties.csv")
df1 = df1.drop(columns=['Unnamed: 0'],inplace=True) 

df2= pd.read_csv("daily_cut.csv")
df2 = df2.drop(columns=['Unnamed: 0'],inplace=True)

## process and aggregate covid time series
ctyList = list(df1['county'].unique())
df1_new= {}
for c in ctyList:
    cty_df = df1[df1['county']==c]
    cty_df['new_cases'] = cty_df['cases'].diff()
    cty_df['new_deaths'] = cty_df['deaths'].diff()
    df1_new[c] = cty_df

df1_new = pd.DataFrame.from_dict(df1_new,orient='index')

然后,我尝试以这种方式合并它们:

df_merged = pd.concat([df1_new,df2]).sort_values('date').reset_index(drop=True)

更新

如果可以正确完成df1_newdf2的合并,我想通过df_mergedcounty_state与{{3}}再次合并。有什么办法可以解决这个问题?

但是我很难正确地加入这两个时间序列。谁能提出任何可行的想法来完成这项工作?有什么想法吗?

解决方法

要在评论中完成@XXavier的建议,

确保正确导入日期:

df1 = pd.read_csv('data/us_covid_by_counties.csv',parse_dates=['date']).drop(columns=['Unnamed: 0'])
df2 = pd.read_csv('data/daily_cut.csv',parse_dates=['date']).drop(columns=['Unnamed: 0'])

添加所需的列:

df1['new_cases'] = df1.groupby(['county'])['cases'].diff()
df1['new_deaths'] = df1.groupby(['county'])['deaths'].diff()

创建合并的df:

df_merged = pd.merge_asof(df1,df2,on="date",direction='nearest')
,

在最初的问题中,您提到了两个数据框。在您的评论中,您提到了另一个数据框。这是一个不同的问题吗? merge_asof适用于您的原始数据集。请看下面

This is the second dataframe

enter image description here

这是将数据类型更改为datetime

df1['date'] = pd.to_datetime(df1['date'])
df2['date'] = pd.to_datetime(df2['date'])

这是我得到的输出

enter image description here