问题描述
我正在尝试使用以下分布对我的数据执行 KS 测试(在 python 中) 正态、对数正态和双正态。尽管我的数据分布最好通过双正态拟合(根据 curve_fit 和视觉检查),但 KS 测试并没有给我等效的结果。我做错了什么吗?
我提供了以下详细信息:
首先,我使用上述函数拟合数据的直方图并估计参数,然后在 KS 测试中使用这些最佳拟合参数。
def normal(x,mean1,stdv1):
return stats.norm.pdf(x,stdv1)
def log_normal(x,stdv1,scale1):
return stats.lognorm.pdf(x,scale=scale1)
def double_normal(x,weight1,weight2,mean2,stdv2):
return weight1 * stats.norm.pdf(x,stdv1) + weight2 * stats.norm.pdf(x,stdv2)
def double_normal_cdf(x,stdv2):
return (weight1*stats.norm.cdf(x,stdv1) + weight2*stats.norm.cdf(x,stdv2))
我使用上述正态分布、log_normal 和 double_normal 分布拟合我的数据直方图
ydata,bin_edg = np.histogram(original_data,40,density=True)
xdata = 0.5*(bin_edg[1:]+bin_edg[:-1])
popt1,pcov1 = curve_fit(normal,xdata,ydata,p0=[4,3])
popt2,pcov2 = curve_fit(log_normal,p0=[3,np.exp(4)])
popt3,pcov3 = curve_fit(double_normal,p0=[0.2,4,0.3,5,0.3])
然后使用 kstest 和 ks_2samp 进行 KS 测试。
stat1,pvalue1 = stats.kstest(ydata,cdf=stats.norm.cdf,args=(popt1))
stat11,pvalue11 = stats.ks_2samp(ydata,stats.norm.pdf(xdata,*popt1))
stat2,pvalue2 = stats.kstest(ydata,cdf=stats.lognorm.cdf,args=(popt2))
stat22,pvalue22 = stats.ks_2samp(ydata,stats.lognorm.pdf(xdata,popt2[0],scale=popt2[1]))
stat3,pvalue3 = stats.kstest(ydata,cdf=double_normal_cdf,args=(popt3))
stat33,pvalue33 = stats.ks_2samp(ydata,double_normal(xdata,*popt3))
stat1 和 stat11 的结果也不同。这也发生在 2 和 22、3 和 33 上。 我得到了 stat22 的最低 Dstat,这是对数正态的。这是错误的,因为最佳拟合应该是双正态。
stat1 =0.99,stat11=0.40,stat2 =1.0,stat22=0.22,stat3 =0.99,stat33=0.40
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)