问题描述
我正在使用Python处理调查数据。 计算中应包含一个基于年龄,性别和地区的加权变量(以使数据代表人口)。
加权变量是一个简单的十进制数字,通常在> = 0.9到
我不知道如何在简单的计算中包括它。大多数变量具有“是/否/不确定”值或其他类别。
例如,如何在此处添加权重变量:
survey['my_variable'].value_counts(normalize=True)
解决方法
我想我已经找到了基于此的解决方案:Groupby with weight
因此,我的策略是首先按照调查周,国家/地区和我感兴趣的分类变量汇总数据框架:
survey_c.groupby(['week','country','my_cat_var']).weight.sum().reset_index(name='count')
然后,我可以使用汇总数据进行绘图或其他任何操作。
如果有人有任何评论或更好的策略,请举手