我将如何自动计算各个国家/地区的小标题内的相关性并有效存储?

问题描述

有点像 R 初学者,我正在处理一个大约 500,000 行的相对较大的数据集(至少对我而言)。

我正在尝试为 PISA 数据集(基于教育的调查)找出不同国家的变量之间的相关性(专门衡量欺凌的影响)。

我能够逐个计算国家的相关矩阵。

我想记录所有这些国家/地区的两个变量之间的相关性(因此不一定是整个矩阵) - 自动执行此操作并将结果全部存储在小标题,这样我就不需要花时间手动执行此操作。

correl_countries = tibble()

for (each in list_countries){
  countries_bullying %>% #tibble subset of the original data 
    filter(CNTRYID == each)%>%
    select(reading_score,bullied_index)%>%
    correl = cor(use = "pairwise.complete.obs") #something to store the correlation values
    correl_countries %>% add_row(x = each,y = correl) #wanted to add these results to a tibble
}

目前似乎什么也没发生,我收到了这个错误

Error in is.data.frame(x) : argument "x" is missing,with no default

这可能与“pairwise.complete.obs”生成相关矩阵而不是单个向量有关。

感谢您的推荐!

解决方法

这里的新用户 - 不知何故无法发表评论。如果我理解正确,您想计算每个国家/地区的 2 个变量之间的相关性,并将其存储在单独的小标题中。将“df”替换为数据集的名称,将“countries”替换为包含所有国家/地区的数据集中的变量。对于大型数据集,可能有更优雅的解决方案(即每个循环子集更少的变量)。

correl_countries <- c()
vec <- unique(df$countries)
for (i in 1:length(vec)) {
    new <- df[df$countries == vec[i],]
    correl_countries[i] <- cor(new$var1,new$var2)
}
tibble(vec,correl_countries)
,

你真的不需要这里的循环,tidyverse 已经让你知道了......下面返回一个包含 2 列的小标题:CNTRYID 和相关:

library(tidyverse)

# get only the correlations
countries_bullying %>%
  group_by(CNTRYID) %>%
  summarise(correl = cor(reading_score,bullied_index,use = "pairwise.complete.obs"))