熊猫-每列和每行填充NaN的速度为0?

问题描述

我有一个数据帧,如下所示,具有数万行和一千列:

enter image description here

对于LSTM,我想

  1. 仅按列提取值
  2. 将它们放在数据帧的开头,然后
  3. 在值开始至索引99之前填充0。

但是,请注意,并非每一列都有相同数量的值。有些已经很多,有些还没有。同样,在哪个时间戳上生成值是特定于列的。我确实使用以下代码实现了结果。但是,由于代码确实很慢(700小时),所以我正在寻找一种更快地执行计算逻辑的可能性。由于我希望每小时进行一次此类结果的计算,因此需要花费很长时间。从2008年到2020年的时间戳。

有什么方法可以使代码明显更快?

df1=pd.DataFrame(index=range(100),columns=dummydata.columns)
for j in dummydata.columns:
    df1[j]=dummydata[(dummydata.index<=i)][j].dropna().iloc[-T:].iloc[::-1].reset_index(drop=True)
df1=df1.fillna(0).reset_index(drop=True)

enter image description here

解决方法

您可以尝试一下,看看是否更快?

dummydata.apply(lambda x: pd.Series(x.dropna().values)).fillna(0)

然后您可以使用dummydata.loc[0:100,:]

仅选择前100行