问题描述
我有一个包含 1900 万个数据的数据集。我正在尝试取名为“volume”的列的均值和标准差。到目前为止,我已经用那些对应的行检查了数据并得到了结果:
df.volume.isnull().sum()
0
这是该列的统计信息(对数进行缩放以防止下溢问题)
df.volume.describe()
计数 = 1.92e+07
分钟 = 0
中位数 = 6.51
最大 = 10.9
均值 = NaN
标准 = 0.00
这是数据集体积列的箱线图
解决方法
如果我不得不在没有看到数据的情况下进行猜测 - 当您记录这些值时,您的数据中可能有一个 0 值,这会导致取平均值时出错。
您可以尝试在 Pandas 中使用 log1p() 函数。