熊猫-每列和每行填充NaN的速度为0？

问题描述

我有一个数据帧，如下所示，具有数万行和一千列：

对于LSTM，我想

仅按列提取值，
将它们放在数据帧的开头，然后
在值开始至索引99之前填充0。

但是，请注意，并非每一列都有相同数量的值。有些已经很多，有些还没有。同样，在哪个时间戳上生成值是特定于列的。我确实使用以下代码实现了结果。但是，由于代码确实很慢（700小时），所以我正在寻找一种更快地执行计算逻辑的可能性。由于我希望每小时进行一次此类结果的计算，因此需要花费很长时间。从2008年到2020年的时间戳。

有什么方法可以使代码明显更快？

df1=pd.DataFrame(index=range(100),columns=dummydata.columns)
for j in dummydata.columns:
    df1[j]=dummydata[(dummydata.index<=i)][j].dropna().iloc[-T:].iloc[::-1].reset_index(drop=True)
df1=df1.fillna(0).reset_index(drop=True)

解决方法

您可以尝试一下，看看是否更快？

dummydata.apply(lambda x: pd.Series(x.dropna().values)).fillna(0)

然后您可以使用dummydata.loc[0:100,:]

仅选择前100行

lstm pandas python zero-padding