问题描述
我正在尝试合并来自不同来源的失业率的两个数据集,第一个数据集的结构如下:
它有 30 多个变量,但我仅将其列为示例。此外,每个观测值仅以一年为单位进行测量,埃及为 2005 年。
year country Gender Unemployment
2005 EGY Female 7.6
2005 EGY Male 9.2
2005 EGY Total .
2006 EGY Female 7.6
2006 EGY Male 9
2006 EGY Total .
第二个结构如下,但它来自年度调查,因此每个国家/地区每年有三个条目(总计,男性,女性)。每个国家都有 1995-2019 年。
country Gender year Unemployment
EGY Total 2005 12
EGY Male 2005 7
EGY Female 2005 17.5
因此,我尝试使用 1:1 和 1:m 合并来合并两个数据集,对于这两个数据集,我得到: “变量国家年不能唯一标识主数据中的观察值”
但是,合并与 m:m 一起工作,如下所示,
merge m:m country year using "Documents\LMI.dta"
感谢尼克的建议,我与三元组合并:
merge 1:1 country year Gender cusing "Documents\LMI.dta"
而且效果很好!
解决方法
从表面上看,您的数据集由 country year Gender
的三元组标识,因此这些变量符合 merge 1:1
的条件。因此,m:m
合并的缺点似乎是完全错误。
那句话没有解决接下来出现的任何问题:
-
Unemployment
在两个集合中都是如此命名的,那么您期望或希望 Stata 做什么? -
在您的数据示例中,
Unemployment
的值在不同的数据集中是不同的,尽管实际数据可能并非如此。