从彭博社在R中下载多个时间序列的简洁方法

问题描述

我正在尝试使用blpapi下载一些有关R中欧元掉期的时间序列数据(例如EUSA10货币),但遇到以下问题:

  1. 如果我尝试使用include.non.Trading.days=FALSE选项下载例如2y,5y,10y和30y掉期利率,则由于某些原因,导致的时间序列长度不同,并且我收到有关此消息的错误消息。另一方面,如果我将非交易日选项设置为true,则我具有类似的时间长度序列,然后可以使用na.omit()函数进行清理
  1. 下载数据的格式是混乱的...我想拥有一个数据框,其中第一列是日期,第二列是第一安全性,第三列是第二安全性,依此类推。相反,我得到的是[date][security][date][security2]......[date][securityN]。有关如何解决此问题的任何建议?

下面我以几行为例

# Load package
library(Rblpapi)
# Connect to Bloomberg
blpConnect()
# Declaring securities
sec<-c("eusa2 curncy","eusa5 curncy","eusa10 curncy")
# Declaring field to be dowloaded
flds<-"PX_LAST" 

data<-as.data.frame(bdh(sec,flds,start.date=as.Date("2019-08-18"),end.date=as.Date("2020-08-18"),include.non.Trading.days=TRUE"))

output

解决方法

在Rblapi manual中,Rblapi::bdh返回了

与证券中的条目一样多的条目列表;每个列表包含一个data.frame与 每个观察值一行,与字段中的条目一样多。如果列表的长度为一,则它为 被折叠为一个数据帧。请注意,退还证券的顺序由 后端,并且可能与证券领域中的证券顺序不同。

因此,我建议您rbind然后对数据进行整形,以便获得所需的结果。一种快速的方法是使用data.table::rbindlist函数,它将列表作为输入并返回包含所有条目的data.table,如果idcol=TRUE则将附加一个.id列显示data.frame的来源。即使您因data.frame调用而在Rblapi::bdh中有不同数量的行,该方法也将起作用。

# Declaring field to be dowloaded
flds<-"PX_LAST" 

# LOADING THE DATA FROM THE API
l <- bdh(sec,flds,start.date=as.Date("2019-08-18"),end.date=as.Date("2020-08-18"),include.non.trading.days=TRUE)

# the names of the securities columns as returned by the api
securities <- paste0("eusa",c(2,5,10,15,30),".curncy.",flds)

# row binding the resulting list
dt <- data.table::rbindlist(l,idcol=T,use.names=FALSE) 
# idcol=T appends an id column (.id) to the resulting data.table
# use.names=F because the columns of the data.frames are different

# remaking the .id column so it reflects the name of the column that it already had
dt[,.id:= securities[.id] ]


# making a wider data.table
data.table::dcast(dt,eusa2.curncy.date ~ .id,value.var=securities[1]) 
# eusa2.curncy.date is the column that defines a group of observation
# .id the name of the columns
# securities[1] or eusa2.curncy.PX_LAST is the column that contains the values

使用的数据

由于我无权访问Bloomberg api端点,因此创建了类似于dbh

输出的模拟数据
col.names <- paste0("eusa",rep(c(2,each=2),rep(c(flds,"date"),5))
l<-rep(list(data.frame(rnorm(200),1:200)),5)

for (i in 1:length(l)) colnames(l[[i]]) <- col.names[(2*i-1):(2*i)]