为什么 Kolmogorov-Smirnov 检验在这种情况下会失败？

问题描述

我有这两个时间序列，我想测试它们是否来自相同的分布。所以我应用了 scipy.stats.ks_2samp() 测试。但是测试返回的 p 值是 0.0028，而 describe() 给出了这些统计信息：

count   120.000000  120.000000
mean    0.785867    0.774267
std     0.323941    0.304894
min     0.610000    0.610000
25%     0.619000    0.610000
50%     0.619000    0.619000
75%     0.749000    0.769500
max     1.812000    1.742000

所以当均值和标准差非常相似时，我不明白为什么测试会拒绝原假设。此外，（累积）分布图看起来非常相似。

有人可以帮我吗？

这是我的数据和测试调用：

from scipy import stats

df = pd.DataFrame(data=[[
    0.62,0.61,0.619,0.62,0.611,0.642,0.67,0.749,0.838,0.862,0.804,0.89,0.942,1.012,1.13,1.14,1.191,1.201,1.123,1.299,1.359,1.411,1.362,1.352,1.44,1.451,1.46,1.557,1.491,1.622,1.639,1.787,1.812,1.665,1.612,1.253,0.936,0.704,0.643,0.63,0.619],[0.801,0.644,0.629,0.689,0.759,0.849,0.84,0.918,1.019,0.967,0.92,0.976,1.089,1.062,1.219,1.202,1.261,1.387,1.422,1.39,1.264,1.281,1.35,1.32,1.419,1.568,1.554,1.623,1.592,1.709,1.742,1.535,0.682,0.618,0.61]]).T

print(stats.ks_2samp(df.iloc[:,1],df.iloc[:,0]).pvalue)

解决方法

Kolmogorov-Smirnov 测试没有失败。两个系列看似扁平的尾巴，其实却有着本质的不同。我们可以通过放大尾部（从索引 60 开始）并对每个系列中的值进行排序以方便比较来看到这一点：

import matplotlib.pyplot as plt

plt.plot(df.iloc[60:,0].sort_values(ignore_index=True))
plt.plot(df.iloc[60:,1].sort_values(ignore_index=True),color='orange')
plt.ylim([0.605,0.625]);

我不知道这是数据记录方式的人工制品，还是真实效果。在任何情况下，请注意 Kolmogorov-Smirnov 检验在这里并不合适，因为它假设两个随机样本，而您所拥有的是时间序列，时间显然是一个重要因素。

kolmogorov-smirnov python statistics

为什么 Kolmogorov-Smirnov 检验在这种情况下会失败？

问题描述

解决方法

相关问答