处理对不平衡面板数据的影响

问题描述

enter image description here，我有一个不平衡的数据集，其中包含电影销售数据以及若干年来的电影特征。一种治疗（事件）发生在社会之间的特定年份之间。现在，我想用r检查这种处理是否影响具有某些特殊特征的电影的销售。我的问题是，当我检查了许多DiD和FE模型时，治疗前后的治疗人群是相同的，而我的情况并非如此。因为事件之前发行的电影与事件之后发行的电影完全不同。我正在寻找电影角色出售时系数的任何变化。请您指导我应该使用哪种型号或r包？

解决方法

您可以使用软件包stats中的线性模型并使用公式

lm(sales ~ treatment + characteristic1 + characteristic2 + characteristic n)

这将划分每个变量（即特征）所解释的销售差异。但是，如果不了解数据集的外观，很难回答您的问题。为了使简单的线性模型正常工作，除其他假设外，您的残差需要正态分布且方差均匀。

附录1 由于您的待遇是会影响2011年后美国所有电影的事件，因此您应将其编码为0/1变量，例如

data.frame$treatment<-ifelse(year>=2011 & production_country=='United States',1,0)

然后，如果您对处理对其他特征系数的效果感兴趣，那么您对处理与所讨论特征之间的相互作用感兴趣。可以使用*进行编码，如下所示：

lm(sales ~ treatment * characteristic of interest)

重要的是要事先仔细考虑一下哪种特征应该受到治疗的影响，而不要测试每种可能的组合（我不知道您拥有多少部独立电影（即您的 n有多大是），但是如果您在每个术语上都进行交互，则可能很难估算系数。）

另外，您应该考虑数据的结构。如果您有来自同一国家的多部电影，以及同一年和同一类型的多部电影，则这些因素可能会影响销售，因此，将它们包括在模型中非常重要（如果没有，您感兴趣的变量，并且如果类别很多，则可以将它们包括为随机效应）。例如，电影上映的那一年可能会影响销售，因为那是经济衰退的一年，或者是因为大流行或其他我们无法完全把握的原因。这是当我们将年份编码为随机效应时的一个很好的示例（尽管在应该或不应该将什么用作随机效应以及何时应将其用作固定效应而不是随机效应方面存在很多分歧），可以阅读有关此here的信息）。您可以使用lme4或nlme包在模型中编写随机效果。我喜欢lme4是因为随机效果编码的简单性，并且它不会返回p值。要开始使用，这是在lme4中编写随机效果模型的方法：

library(lme4)
lmer(sales ~ genre * treatment + (1|Production Year))

让我们知道它是如何工作的！

causality linear-regression panel-data plm r

处理对不平衡面板数据的影响

问题描述

解决方法

相关问答