问题描述
我正在尝试运行 for 循环以在 Stata 中制作平衡表(将我的数据集的人口统计数据与国家级统计数据进行比较)
为此,我正在准备我的数据集并尝试计算一些关键人口统计数据的百分比/平均值。
preserve
rename unearnedinc_wins95 unearninc_wins95
foreach var of varlist fem age nonwhite hhsize parent employed savings_wins95 debt_wins95 earnedinc_wins95 unearninc_wins95 underfpl2019 { //continuous or binary; to put categorical vars use kwallis test
dis "for variable `var':"
tabstat `var'
summ `var'
local `var'_samplemean=r(mean)
}
clear
set obs 11
gen var=""
gen sample=.
gen F=.
gen pvalue=.
replace var="% Female" if _n==1
replace var="Age" if _n==2
replace var="% Non-white" if _n==3
replace var="HH size" if _n==4
replace var="% Parent" if _n==5
replace var="% Employed" if _n==6
replace var="Savings stock ($)" if _n==7
replace var="Debt stock ($)" if _n==8
replace var="Earned income last mo. ($)" if _n==9
replace var="Unearned income last mo. ($)" if _n==10
replace var="% Under FPL 2019" if _n==11
foreach col of varlist sample {
replace `col'=100*round(`fem_`col'mean',0.01) if _n==1
replace `col'=round(`age_`col'mean') if _n==2
replace `col'=100*round(`nonwhite_`col'mean',0.01) if _n==3
replace `col'=round(`hhsize_`col'mean',0.1) if _n==4
replace `col'=100*round(`parent_`col'mean',0.01) if _n==5
replace `col'=100*round(`employed_`col'mean',0.01) if _n==6
replace `col'=round(`savings_wins95_`col'mean') if _n==7
replace `col'=round(`debt_wins95_`col'mean') if _n==8
replace `col'=round(`earnedinc_wins95_`col'mean') if _n==9
replace `col'=round(`unearninc_wins95_`col'mean') if _n==10
replace `col'=100*round(`underfpl2019_`col'mean',0.01) if _n==11
}
我正在尝试运行以下循环,但在循环的后半部分,我不断收到“无效语法”错误。对于上下文,在循环的前半部分(在清除数据集之前),代码将变量的平均值存储为宏(`var'_samplemean)。有人可以帮我解决这个问题吗?
我的样本数据:
clear
input byte fem float(age nonwhite) byte(hhsize parent) float employed double(savings_wins95 debt_wins95 earnedinc_wins95 unearninc_wins95) float underfpl2019
1 35 1 6 1 1 0 2500 0 0 0
0 40 0 4 1 1 0 10000 1043 0 0
0 40 0 4 1 1 0 20000 2400 0 0
0 40 0 4 1 1 .24 20000 2000 0 0
0 40 0 4 1 1 10 . 2600 0 0
谢谢!
解决方法
感谢分享数据片段。除了变量 unearninc_wins95
已在您的示例数据中重命名这一事实之外,代码对我来说运行良好,不会返回错误。
话虽如此,一旦代码底部的循环完成,您的 F 统计量和 p 值的列就为空。据我所知,没有名为 sample
的本地/varlist,您正试图用 foreach col of varlist sample{
行调用它。这可能是因为您没有将它包含在您的代码中,在这种情况下请这样做,或者可能是因为您还没有创建本地/varlist sample
,在这种情况下,这很可能是您的错误信息。
退一步来说,有更有效的方法可以实现我认为您所追求的目标。例如,您可以使用软件包 stat2data
获取(部分)您想要的内容(如果您尚未安装它,请从命令提示符运行 ssc install stat2data
)。然后,您可以运行以下代码:
stat2data fem age nonwhite hhsize parent employed savings_wins95 debt_wins95 earnedinc_wins95 unearninc_wins95 underfpl2019,saving("~/yourstats.dta") stat(count mean)
*which returns:
preserve
use "~/yourstats.dta",clear
. list,sep(11)
+----------------------------+
| _name sN smean |
|----------------------------|
1. | fem 5 .2 |
2. | age 5 39 |
3. | nonwhite 5 .2 |
4. | hhsize 5 4.4 |
5. | parent 5 1 |
6. | employed 5 1 |
7. | savings_wins 5 2.048 |
8. | debt_wins95 4 13125 |
9. | earnedinc_wi 5 1608.6 |
10. | unearninc_wi 5 0 |
11. | underfpl2019 5 0 |
+----------------------------+
restore
这缺少您在上面的代码中创建的空 F 统计量和 p 值变量,但您始终可以使用与 gen F=.
和 gen pvalue=.
相同的方式添加它们。但是,这些变量的存在表明您希望在某个时候运行一些测试,然后用它们中的值填充单元格。我会提供有关如何执行此操作的建议,但从您的代码中看不到您想要测试的内容。如果您能澄清这一点,我将尝试编辑此答案以包含该内容。
这并不能直接回答您的问题;正如其他人轻轻指出,如果没有可重复的例子,这个问题很难回答。但是我对您的代码有几个小注释,最好以这种形式呈现。
假设所有需要的变量确实存在于数据集中,我会推荐更像这样的:
local myvarlist fem age nonwhite hhsize parent employed savings_wins95 debt_wins95 earnedinc_wins95 unearninc_wins95 underfpl2019
local desc `" "% Female" "Age" "% Non-white" "HH size" "% Parent" "% Employed" "Savings stock ($)" "Debt stock ($)" "Earned income last mo. ($)" "Unearned income last mo. ($)" "% Under FPL 2019" "'
local i = 1
gen variable = ""
gen mean = ""
local i = 1
foreach var of local myvars {
summ `var',meanonly
local this : word `i' of `desc'
replace variable = "`this'" in `i'
if inlist(`i',1,3,5,6,11) {
replace mean = strofreal(100 * r(mean),"%2.0f") in `i'
}
else if `i' == 4 {
replace mean = strofreal(r(mean),"%2.1f") in `i'
}
else replace mean = strofreal(r(mean),"%2.0f") in `i'
local ++i
}
这还没有经过测试。
出现的点包括:
-
使用
in
比使用if
测试观察数更可取。 -
round()
舍入到这么多小数位是很危险的。大多数时候你会得到你想要的,但偶尔你会得到奇怪的结果,因为 Stata 像任何等效程序一样以二进制方式工作。将舍入视为字符串操作中的问题并使用显示格式来准确提供您想要的内容会更安全。 -
如果您要显示的文本只是每个变量的变量标签,则可以进一步简化此代码。
-
代码暗示意图显示其他内容,这很容易与此设计兼容。