问题描述
假设西班牙有 50,000 个城市,每个城市的人口由 p(1),p(2),...,p(n) 表示。根据分布的均值 ? 和偏差 ?,我们如何判断该分布是否为重尾分布?我们应该考虑什么程序?
解决方法
如果您拥有全部 50,000 个观测值,那么您可以计算关于均值的中心矩。
特别是,第四个中心矩除以方差的平方就是峰态。这个数字会告诉你分布是否是 platykurtic。如果大于 3,则表示您的分布比标准正态分布的尾部更重。
因此,如果您使用 Python 并且所有 50K 观察值都存储在 x
中:
from scipy import stats
# Calculate kurtosis
k = stats.moment(x,4) / x.var()**2
# Evaluate
if k > 3:
print('Distribution has heavy tails')
else:
print('Distribution does not have heavy tails')