熊猫-每列和每行填充NaN的速度为0?

问题描述

我有一个数据帧,如下所示,具有数万行和一千列:

enter image description here

对于LSTM,我想

  1. 仅按列提取值
  2. 将它们放在数据帧的开头,然后
  3. 在值开始至索引99之前填充0。

但是,请注意,并非每一列都有相同数量的值。有些已经很多,有些还没有。同样,在哪个时间戳上生成值是特定于列的。我确实使用以下代码实现了结果。但是,由于代码确实很慢(700小时),所以我正在寻找一种更快地执行计算逻辑的可能性。由于我希望每小时进行一次此类结果的计算,因此需要花费很长时间。从2008年到2020年的时间戳。

有什么方法可以使代码明显更快?

df1=pd.DataFrame(index=range(100),columns=dummydata.columns)
for j in dummydata.columns:
    df1[j]=dummydata[(dummydata.index<=i)][j].dropna().iloc[-T:].iloc[::-1].reset_index(drop=True)
df1=df1.fillna(0).reset_index(drop=True)

enter image description here

解决方法

您可以尝试一下,看看是否更快?

dummydata.apply(lambda x: pd.Series(x.dropna().values)).fillna(0)

然后您可以使用dummydata.loc[0:100,:]

仅选择前100行

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...