我想进行未配对的t检验。我有一个非常庞大的数据集,包含50万名参与者,只有21名参与者患有疾病。如何从这个庞大的数据集中选择健康的对照?
任何想法都会有所帮助。 我正在使用R进行分析
您需要获取与对照样本相同大小的随机样本,即大小为21的随机样本。sample函数将为您提供帮助。另外,您可能想要复制相同比例的男女。例如,如果有10位男性和11位女性,那么您将不得不根据性别对两名患者进行采样。
sample
简而言之,最好使用样本从大量健康患者的样本中随机复制21例患者的特征。