问题描述
我试图确定今天的数据与昨天的数据在四个类别上是否真的不同。
我的统计数据是:
data <-data.frame(yesterday=c(10741,1575,174,2),today = c(11987,1705,211,row.names = c("a","b","c","unknown"))
> data
yesterday today
a 10741 11987
b 1575 1705
c 174 211
unknown 2 2
所以我以这种方式使用统计包中的卡方检验:
stats::chisq.test(x = data$yesterday,y = data$today)
结果是:
Pearson's Chi-squared test
data: data$yesterday and data$today
X-squared = 12,df = 9,p-value = 0.2133
我的问题是我认为这应该与以下内容相同:
stats::chisq.test(data)
但是您可以看到结果完全不同。
Pearson's Chi-squared test
data: data
X-squared = 1.3846,df = 3,p-value = 0.7092
那么....这是使用此测试比较来自同一数据集的两个样本的正确方法吗?
解决方法
我认为问题出在以下事实:您在第一种情况下在列联表的列上应用chisq.test,而该函数期望x和y是因子。因此,您提供列联表的版本应该是正确的,至少与文档中的示例相对应