问题描述
我正在使用BatchGetSymbols从其他国家下载超过10年的SP500和索引以及货币汇率。我在各个日期的指数和货币总计获得100的NA。以下是巴西及其货币的代码。
tickers <- c('^GSPC','^BVSP','BRLUSD=X')
l.out<- BatchGetSymbols(tickers = tickers,first.date = '2009-12-28',last.date = '2020-08-31',bench.ticker = '^GSPC',do.fill.missing.prices=T)
l.out$df.tickers<- imputeTS::na_locf(l.out$df.tickers)
l.wide <- reshape.wide(l.out$df.tickers)
adjprice <- l.wide$price.adjusted
colnames(adjprice)<- c("Date","IBOV","SP500","BRL")
我知道某些日期是其他国家的假期。我也尝试过na.omit(adjprice)
和na.locf(adjprice)
,但没有任何变化。在某些日期中,连续两次有索引具有NA的日期,但是使用locf,我认为这不是问题。
在这种情况下,关于如何插值或将前一个日期的值带入NA的任何建议?手动清理它是太多的工作。
谢谢。
解决方法
通常,您可以使用imputeTS
软件包来填充时间序列中缺失的观测值。
library("imputeTS")
na_interpolate(your_dataframe)
它还提供了许多其他插补函数na_locf
,na_seadec
,na_kalman
等。您可以查看GitHub Readme,以获取有关可用功能的更多信息。
但是我认为na_locf
可能是一个不错的选择,因为无论如何这些财务时间序列都没有太多季节性。
我无法真正测试,内置do.fill.missing.prices=T
选项对您不起作用。为此,您必须向我们提供一个代码示例,该示例实际上类似于您的问题并且对我们而言是可复制的。
针对您的数据的imputeTS
解决方案将按以下方式工作:
library("BatchGetSymbols")
library("imputeTS")
tickers <- c('FB','MMM')
df <- BatchGetSymbols(tickers = tickers,first.date = '2000-12-28',last.date = '2020-08-31',bench.ticker = '^GSPC',do.fill.missing.prices=T)
df$df.tickers <- imputeTS::na_locf(df$df.tickers)
正如我所说,您可以将na_locf
中的其他插补函数替换为imputeTS
。
如果您只是打算使用locf
,则还可以使用提供此功能的任何其他软件包。实际上,它是在很多软件包中实现的。但是,如果您有大量数据,imputeTS
和zoo
的实现应该是最快的。