使用两个具有相同日期的面板数据集进行操作

问题描述

我正在尝试处理两个充满以下内容的数据集:

  • 728行和365列。数据是一年中每天测量的平均每日温度。
  • 938行和365列。数据是一年中每天测得的平均每日温度

数据集1看起来像这样

FUA_CODE               01-01-2018   02-01-2018 ...

IT001L1  --> Milano     290.02020    289.1114   ...
IT002L3  --> Roma       281.20203    288.1235   ...
IT003L4  --> Napoli     287.03030    287.3121   ...
...

数据集2看起来像这样

URAU_CODE     FUA_CODE                         01-01-2018   02-01-2018 ...

IT001C1       IT001L1 --> Milano                  A             B       ...
IT002C1       IT001L1 --> town outside Milano    ...           ...      ...
IT003C1       IT001L1 --> town2 outside Milano   ...           ...       ...
IT004C1       IT002L3 --> Roma                    C             D
IT005C1       IT002L3 --> town outside Roma      ...           ...
IT006C1       IT002L3 --> town2 outside Roma     ...           ...
IT007C1       IT003L4 --> Napoli                  E             F
IT008C1       IT003L4 --> town outside Napoli    ...           ...
IT009C1       IT003L4 --> town2 outside Napoli   ...           ...
              ...

我的任务是合并这两个数据集,并每天计算一个城市(例如米兰)的温度与另一个数据集中同一城市的温度之间的差。

理想情况下,结果应该像

FUA_CODE                   01-01-2018        02-01-2018      ...

IT001L1  --> Milano     290.02020  -  A       289.1114 - B   ...
IT002L3  --> Roma       281.20203  -  C       288.1235 - D   ...
IT003L4  --> Napoli     287.03030  -  E       287.3121 - F   ...
...

我可以使用哪些功能

非常感谢

解决方法

您可以先加入df,然后使用summarise计算值。

您可以看到here加入数据框,而here进行计算