问题描述
在我的应用程序中,输入数据集通常来自高斯分布。但是,有时它是多峰的,在这种情况下,我想将数据建模为来自多个高斯分布的数据的混合。
现在,我想对许多基础分布的均值和西格玛进行估算。
我找不到办法。
我想的一种方法是将数据集分成多个。我将使用高斯KDE并将最小值作为分割点。但是,在基础分布重叠的区域中,这将是不准确的。
还有更好的方法吗?
解决方法
为了将来:https://stats.stackexchange.com/将是一个更适合统计问题的地方。
无需将数据集分成多个。看起来scipy已经涵盖了:https://docs.scipy.org/doc/scipy/reference/tutorial/stats.html,如果您查看内核密度估计和双峰分布版本
def my_kde_bandwidth(obj,fac=1./5):
"""We use Scott's Rule,multiplied by a constant factor."""
return np.power(obj.n,-1./(obj.d+4)) * fac
from functools import partial
loc1,scale1,size1 = (-2,1,175)
loc2,scale2,size2 = (2,0.2,50)
x2 = np.concatenate([np.random.normal(loc=loc1,scale=scale1,size=size1),np.random.normal(loc=loc2,scale=scale2,size=size2)])
x_eval = np.linspace(x2.min() - 1,x2.max() + 1,500)
kde = stats.gaussian_kde(x2)
kde2 = stats.gaussian_kde(x2,bw_method='silverman')
kde3 = stats.gaussian_kde(x2,bw_method=partial(my_kde_bandwidth,fac=0.2))
kde4 = stats.gaussian_kde(x2,fac=0.5))
pdf = stats.norm.pdf
bimodal_pdf = pdf(x_eval,loc=loc1,scale=scale1) * float(size1) / x2.size + \
pdf(x_eval,loc=loc2,scale=scale2) * float(size2) / x2.size
fig = plt.figure(figsize=(8,6))
ax = fig.add_subplot(111)
ax.plot(x2,np.zeros(x2.shape),'b+',ms=12)
ax.plot(x_eval,kde(x_eval),'k-',label="Scott's Rule")
ax.plot(x_eval,kde2(x_eval),'b-',label="Silverman's Rule")
ax.plot(x_eval,kde3(x_eval),'g-',label="Scott * 0.2")
ax.plot(x_eval,kde4(x_eval),'c-',label="Scott * 0.5")
ax.plot(x_eval,bimodal_pdf,'r--',label="Actual PDF")
ax.set_xlim([x_eval.min(),x_eval.max()])
ax.legend(loc=2)
ax.set_xlabel('x')
ax.set_ylabel('Density')
plt.show()
这里x2是建模数据,...也许在文档页面中有更好的解释。