均值多重比较的更正-Python中的Tukey HSD

问题描述

我有一个包含4个条件（A，B，C，D）的日期集。我观察到的单向方差分析是在4种情况下我的因变量（反应时间，RT）呈线性增加。

我想进行事后测试，以查看Tukey HSD事后测试中RT从A到B，从B到C，以及C到D的增加是否显着。

要在Python中运行测试，我使用以下代码：

#Multiple Comparison of Means - Tukey HSD
from statsmodels.stats.multicomp import pairwise_tukeyhsd
print(pairwise_tukeyhsd(df["RT"],df['Cond']))

我面临的问题是，这里假设我对所有可能的比较（A与B，A与C，A与D，B与C，B与D，C与D）感兴趣。因此，所应用的校正基于6个测试。但是，我仅基于3个比较（A对B，B对C，C对D）进行假设。

如何将我感兴趣的比较次数/类型告知事后测试？

解决方法

不幸的是你不能。 Tukey HSD不像您的成对t检验那样，对原始p值进行了多次比较调整。您看到的p值基于the studentized range (q) distribution。

一种实现方法是拟合线性模型，就像您的方差分析，然后对系数进行成对t检验，并对所需系数进行子集化。

为了说明这一点，我使用一些模拟数据，这就是TukeyHSD的样子：

import pandas as pd
import numpy as np
from statsmodels.formula.api import ols
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multitest import multipletests

np.random.seed(123)

df = pd.DataFrame({'RT':np.random.randn(100),'Cond':np.random.choice(['A','B','C','D'],100)})

hs_res=pairwise_tukeyhsd(df["RT"],df['Cond'])
print(hs_res)

Multiple Comparison of Means - Tukey HSD,FWER=0.05
===================================================
group1 group2 meandiff p-adj   lower  upper  reject
---------------------------------------------------
     A      B  -0.6598 0.2428 -1.5767 0.2571  False
     A      C  -0.3832 0.6946 -1.3334  0.567  False
     A      D   -0.634 0.2663 -1.5402 0.2723  False
     B      C   0.2766 0.7861 -0.5358 1.0891  False
     B      D   0.0258    0.9 -0.7347 0.7864  False
     C      D  -0.2508 0.8257 -1.0513 0.5497  False
---------------------------------------------------

现在我们进行ols，您可以看到它非常可比：

res = ols("RT ~ Cond",df).fit()
pw = res.t_test_pairwise("Cond",method="sh")
pw.result_frame

    coef    std err t   P>|t|   Conf. Int. Low  Conf. Int. Upp. pvalue-sh   reject-sh
B-A -0.659798   0.350649    -1.881645   0.062914    -1.355831   0.036236    0.352497    False
C-A -0.383176   0.363404    -1.054407   0.294343    -1.104528   0.338176    0.829463    False
D-A -0.633950   0.346604    -1.829032   0.070499    -1.321954   0.054054    0.352497    False
C-B 0.276622    0.310713    0.890281    0.375541    -0.340138   0.893382    0.829463    False
D-B 0.025847    0.290885    0.088858    0.929380    -0.551555   0.603250    0.929380    False
D-C -0.250774   0.306140    -0.819147   0.414731    -0.858458   0.356910    0.829463    False

然后我们选择correction的子集和方法，下面我像上面那样使用simes-hochberg：

subdf = pw.result_frame.loc[['B-A','C-B','D-C']]
subdf['adj_p'] = multipletests(subdf['P>|t|'].values,method='sh')[1]
subdf

    coef    std err t   P>|t|   Conf. Int. Low  Conf. Int. Upp. pvalue-sh   reject-sh   adj_p
B-A -0.659798   0.350649    -1.881645   0.062914    -1.355831   0.036236    0.352497    False   0.188742
C-B 0.276622    0.310713    0.890281    0.375541    -0.340138   0.893382    0.829463    False   0.414731
D-C -0.250774   0.306140    -0.819147   0.414731    -0.858458   0.356910    0.829463    False   0.414731

作为评论，如果您看到趋势，则可能有其他模型可以对此建模，而不是依赖事后检验。也可以将您需要的测试子集化并进行更正，可以认为是某种类型的樱桃采摘。.如果比较的次数很多（例如您的示例6），我建议您选择Tukey。这是您可以在交叉验证中发布的另一个讨论。

posthoc python python-3.x statsmodels tukey