了解《泰坦尼克号》数据集上的卡方检验

问题描述

目前,我正在对数据集进行假设检验。

在阅读有关卡方测试的信息时,我是通过kaggle找到了这本笔记本的:

https://github.com/viswanathanc/statistics/blob/master/Titanic%20Chi%20Square%20test%20-%20PClass%20vs%20Survied.ipynb

这是对泰坦尼克号数据集的卡方假设检验。

为了计算 生存 间的关系,他使用了以下代码

1)用于获取列联表(观察值)

PClass_survd = pd.pivot_table(data,index=['Pclass'],columns=['Survived'],aggfunc='size')

2)阶级和生存方式如何分布

pct_class = PClass_survd.sum(axis=1)/891

pct_survived = PClass_survd.sum(axis=0)/891

3)计算期望值

pct_class.to_frame()@(pct_survived.to_frame().T)

我不理解在步骤3中如何计算期望值。我知道pd.to_frame()将序列转换为数据框。

任何人都可以详细解释此步骤3或如何在不使用统计数据的卡方函数的情况下从数据集中计算期望值吗?

预先感谢

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)