在MATLAB中进行为期3天的滚动相关性计算

问题描述

| 我需要计算3天的相关性。下面给出了一个样本矩阵。我的问题是ID可能并非每天都存在于Universe中。例如,AAPL可能始终在Universe中,但是公司-ccl可能仅在我的Universe中存在2天。我将感谢矢量解决方案。由于相关矩阵的大小可能会有所不同,因此我可能必须在这里使用structs /
accumarray
等。
% col1 = TradingDates,col2 = companyID_asInts,col3 = VALUE_forCorrelation

rawdata = [ ...

    734614 1 0.5; 
    734614 2 0.4; 
    734614 3 0.1; 

    734615 1 0.6; 
    734615 2 0.4; 
    734615 3 0.2; 
    734615 4 0.5; 
    734615 5 0.12;

    734618 1 0.11; 
    734618 2 0.9; 
    734618 3 0.2; 
    734618 4 0.1; 
    734618 5 0.33;
    734618 6 0.55; 

    734619 2 0.11; 
    734619 3 0.45; 
    734619 4 0.1; 
    734619 5 0.6; 
    734619 6 0.5;

    734620 5 0.1; 
    734620 6 0.3] ; 
\\三天关联\':
% 734614 & 734615 corr is ignored as this is a 3-day corr

% 734618_corr = corrcoef(IDs 1,2,3 values are used. ID 4,5,6 is ignored) -> 3X3 matrix

% 734619_corr = corrcoef(IDs 2,3,4,5 values are used. ID 1,6 is ignored) -> 3X4 matrix

% 734620_corr = corrcoef(IDs 5,6 values are used. ID 1,4 is ignored) -> 3X2 matrix
实际数据涵盖了1995-2011年间的Russel1000宇宙,并拥有超过410万行。所需的相关性为20天。     

解决方法

        我不会在这里尝试获得向量化的解决方案:MATLAB JIT编译器意味着循环在最新版本的MATLAB上通常可以同样快。 您的矩阵看起来很像一个稀疏矩阵:将其转换为该形式是否有帮助,以便您可以使用数组索引?仅当第三列中的数据永远不能为0时,这才可能起作用,否则,您将必须保留当前的显式列表并使用如下所示的内容:
dates = unique(rawdata(:,1));
num_comps = max(rawdata(:,2));

for d = 1:length(dates) - 2;
    days = dates(d:d + 2);

    companies = true(1,num_comps);
    for curr_day = days\'
        c = false(1,num_comps);
        c(rawdata(rawdata(:,1) == curr_day,2)) = true;
        companies = companies & c;
    end
    companies = find(companies);

    data = zeros(3,length(companies));
    for curr_day = 1:3
        for company = 1:length(companies)
            data(curr_day,company) = ...
                rawdata(rawdata(:,1) == days(curr_day) & ...
                        rawdata(:,2) == companies(company),3);
        end
    end

    corrcoef(data)
end