问题描述
我正在尝试对美国社区调查数据执行线性回归,该数据的估计值存在标准误差。在运行线性回归(例如 lm())时,解决这些问题的正确方法是什么?
ACS 数据示例:
tarr <- structure(list(GEOID = c("48439100101","48439100102","48439100201","48439100202","48439100300","48439100400"),NAME = c("Census Tract 1001.01,Tarrant County,Texas","Census Tract 1001.02,"Census Tract 1002.01,"Census Tract 1002.02,"Census Tract 1003,"Census Tract 1004,Texas"),estimate = c(50369,58125,40814,47944,36007,30679),standard_error = c(7628.57142857143,6375.07598784194,4620.06079027356,5686.93009118541,2677.20364741641,2450.45592705167)),row.names = c(NA,-6L),class = c("tbl_df","tbl","data.frame"))
head(tarr)
#> # A tibble: 6 x 4
#> GEOID NAME estimate standard_error
#> <chr> <chr> <dbl> <dbl>
#> 1 48439100101 Census Tract 1001.01,Tex… 50369 7629.
#> 2 48439100102 Census Tract 1001.02,Tex… 58125 6375.
#> 3 48439100201 Census Tract 1002.01,Tex… 40814 4620.
#> 4 48439100202 Census Tract 1002.02,Tex… 47944 5687.
#> 5 48439100300 Census Tract 1003,Texas 36007 2677.
#> 6 48439100400 Census Tract 1004,Texas 30679 2450.
由 reprex package (v1.0.0) 于 2021 年 3 月 14 日创建
如果我使用 lm(),它将报告将估计值视为观察数据的标准误差,而不是考虑估计值已经存在标准误差。据我所知,svyglm 仅适用于复制表权重,不适用于标准误差。
谢谢!
解决方法
假设标准误差为:
- 衡量可变性
- 估计总体多个样本的变异性
- 是一个只能估计的推论统计量
您不必考虑给定的标准误差。
此信息包含在您用于线性回归的数据中。
您可能想到的是回归 (S) 的标准误差,它是回归分析的关键拟合优度度量?