如何避免Pandas groupby导致数据丢失

问题描述

我有一个数据帧类型的数据,大小为7689行×114列。其中包含日期时间,浮点类型数据等。我尝试使用“ groupby”方法将原始数据分为4部分,分别处理了一些基本的减法运算(不更改数据结构)并将4部分合并使用“ pd.concat”方法将其合并为一个

但是当我将它们重新组合为一个后,大小变为7685行×114列。最重要的是,当我将DateTime可视化为时间轴时,它会显示丢失的数据,最初它是半年一致的数据,但是现在却丢失了将近一个月的时间(但同时数据量增加了)。 这是代码

#Divide into 4 parts according to column 1 and column 2
grouped = overlay_syco.groupby(['column 1','column 2'])
print(grouped.describe())

#print(grouped.describe())
l_grouped = list(grouped)

df1 = l_grouped[0][1]
df2 = l_grouped[1][1]
df3 = l_grouped[2][1]
df4 = l_grouped[3][1]

df_con0 = pd.concat([df1,df2,df3,df4],axis=0)

这是分组结果:

count   
column 1                                                      column 2          
row1 1.0                                                 1936.0   
           2.0                                                 1911.0   
row2 1.0                                                 1925.0   
           2.0                                                 1913.0   

任何解决此问题的帮助,将不胜感激。

解决方法

我怀疑如果尝试提取l_grouped变量的长度:

len(l_grouped)

您会发现它返回的值大于4。换句话说,您将数据拆分为4个以上的部分,但仅将4个部分放在一起。