r中的表要加权

问题描述

我正在尝试运行交叉表/列联表，但需要通过加权变量对其进行加权。这是一些示例数据。

set.seed(123)
sex <- sample(c("Male","Female"),100,replace = TRUE)
age <- sample(c("0-15","16-29","30-44","45+"),replace = TRUE)
wgt <- sample(c(1:10),replace = TRUE)
df <- data.frame(age,sex,wgt)

我已经运行过此程序以获得常规的交叉表表

table(df$sex,df$age)

为了获得加权频率，我尝试了Hmisc软件包（如果您知道更好的软件包，请告诉我）

library(Hmisc)
wtd.table(df$sex,df$age,weights=df$wgt)
Error in match.arg(type) : 'arg' must be of length 1

我不确定哪里出了问题，但是它没有运行，因此任何帮助都将是非常有用的。或者，如果您知道如何在另一个程序包中执行此操作（这可能更适合分析调查数据），那也很好。预先非常感谢。

解决方法

一种解决方案是按权重重复data.frame的行，然后table结果。

以下重复data.frame的行（仅相关列）：

df[rep(row.names(df),df$wgt),1:2]

它可以用来获取列联表。

table(df[rep(row.names(df),1:2])
#       sex
#age     Female Male
#  0-15      56   76
#  16-29     73   99
#  30-44     60  106
#  45+       76   90

尝试一下

GDAtools::wtable(df$sex,df$age,w = df$wgt)

输出

       0-15 16-29 30-44 45+ NA tot
Female   56    73    60  76  0 265
Male     76    99   106  90  0 371
NA        0     0     0   0  0   0
tot     132   172   166 166  0 636

更新

如果您不想安装整个软件包，则需要两个基本功能：

wtable和dichotom

找到它们，您应该可以毫无问题地使用wtable。

使用相同数据集的tidyverse解决方案。种子uncount等同于@Rui的权重rep。

library(dplyr)
library(tidyr)

df %>%
   uncount(weights = .$wgt) %>% 
   select(-wgt) %>%
   table
#>        sex
#> age     Female Male
#>   0-15      56   76
#>   16-29     73   99
#>   30-44     60  106
#>   45+       76   90

contingency crosstab r r weighted