问题描述
(首先,我不是母语人士,我认为我的英语可能不够好,无法提出技术问题,但我会尽量说清楚)
大家好,我正在做一个项目,使用经典的 kc_house_data 进行一些分析。
我对统计学的了解越来越少,所以这对我来说是个挑战。
在项目中,我想比较一些考虑到不同特征的数据,例如,基于有或没有 .5 层楼的平方米价格(1、2 和 3 层楼的价格 x 1.5、2.5、3 层楼的价格,5 层)。
d1 = data['price_m2_living'].loc[data['floors'] % 1 != 0]
d2 = data['price_m2_living'].loc[data['floors'] % 1 == 0]
我可以通过直方图的外观、偏度(值 = 0.70 | 1.32)和 kstest(p 值 = 0.00044 | 2.88e-114)来检查我的数据不是高斯分布。
知道要使用 T-Student 测试和方差分析,我需要标准化数据,我尝试了好几天以某种方式将这些数组转换为高斯数组,但这对我来说非常困难。
我一直在尝试使用 Scipy 函数(norm、lognorm 等)并了解它的参数,但没有一个对我有用。我还尝试以这种方式使用 arctanh 函数:
d1_t = (rankdata(d1)/(len(d1)+1))*2 - 1
d1_t = np.arctanh(d1_t)
plt.hist(d1_t,bins=20)
skew(d1_t)
kstest(d1_t,'norm',args=(d1_t.mean(),d1_t.std()))
skew = -8.40e-08
pvalue = 0.25680 (bigger than 1.36/np.sqrt(len(d1_t)))
和直方图:
它适用于我的 d1 阵列,但不适用于我的 d2..
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)