具有不同长度解释变量的 OLS 回归

问题描述

我计算了从 1926 年到 2012 年的 Betting Against Beta 策略的回报,并希望采用 Mkt-RF、HML、SMB、MOM 和流动性因素作为自变量进行 OLS 回归。问题是流动性数据的数据是从 1968 年开始的。我是否必须从 1968 年开始回归,或者有没有办法包括 1968 年的 LIQ 因子?我正在用 Python 编码

解决方法

您可以添加新的二进制变量以指示何时填充数据,何时未填充。如果在数据不存在时使用 1 并将缺失数据设置为 0,这会创建一个调整项。您也可以用估计值替换数据,尽管这会引入偏差。 Here is a general guide

这可能会对 OLS 回归背后的假设产生一些影响,因此您需要额外确保这些与您的数据集保持一致,以便自信地得出结论。假设很好here