获取网络R中友谊的时间长度

问题描述

我有一个网络数据集，涉及7场以上的青少年友谊。我正在尝试确定给定双子的长度（定向友谊）。

样品有数据：

List<TReturn> GetReturnedItems<TReturn>(string jobId)
{
    IMonitoringApi jobMonitoringApi = JobStorage.Current.GetMonitoringApi();
    JobDetailsDto job = jobMonitoringApi.JobDetails(jobId);
    string resultSerialized = job.History[0].Data["Result"];
    List<TReturn> returnedItems = JsonConvert.DeserializeObject<List<TReturn>>(resultSerialized);
    return returnedItems;
}

想要的数据：

 ego    alter   wave
   1        5      1
   1        4      1
   1        5      2
   1        2      2
   1        3      2
   2        8      1
   2        8      2
   2        8      3
   3        4      1
   3        7      1
   3        6      1
   3        6      2
   3        7      3
   3        6      3

这是我已经尝试过的：

 ego    alter   friendship_length
   1        5     2  
   1        4     1 
   1        2     1 
   1        3     1  
   2        8     3        
   3        4     1 
   3        7     1 
   3        6     3

哪个给我这个：

edges_wide <- edges_long %>% 
              select(ego,alter,wave) %>%
              group_by(ego,alter) %>% 
              mutate(col=seq_along(ego))%>% # add a column indicator
              spread(key=col,value=wave)

从这里我不确定如何获得定向友谊的波幅（长度），包括不计算不连续的提名（例如自我3改变7）。

解决方法

应该有一个较短的解决方案。

如果我的理解正确，您只想计算随后发生的与alter和ego有关系的波浪的第一次出现。因此，我们可以使用row_number()添加一个组ID，针对有时波浪从min(wave)-1开始于1之后的事实进行调整，然后仅对wave和修改后的{{1 }。重合。对于给定的一对，一旦在数据中跳过一个波形，两个索引就会不同。

id

编辑解决新评论。我们要计算连续的友谊关系最长的时间。 d %>% arrange(wave) %>% group_by(ego,alter) %>% mutate(id = row_number() + min(wave) - 1) %>% summarise(friendship_lenght = sum(wave==id)) # A tibble: 8 x 3 # Groups: ego [3] ego alter friendship_lenght <int> <int> <int> 1 1 2 1 2 1 3 1 3 1 4 1 4 1 5 2 5 2 8 3 6 3 4 1 7 3 6 3 8 3 7 1可用于创建一对唯一的友谊阶段ID。连续的第一个波浪中的友谊都将被赋予相同的整数，以此类推。因此，我们可以计算每个单个整数出现的次数，并取最大值：

row_number()

数据

dd %>% 
  arrange(wave) %>% 
  group_by(ego,alter) %>%
  count(wave - row_number() ) %>% 
  summarise(friendship_lenght = max(n)) 

# A tibble: 9 x 3
# Groups:   ego [3]
    ego alter friendship_lenght
  <int> <int>             <dbl>
1     1     2                 1
2     1     3                 1
3     1     4                 1
4     1     5                 2
5     2     8                 3
6     3     4                 1
7     3     6                 3
8     3     7                 1
9     3     8                 3

另一种可能性。

首先，让我们创建一个计算连续序列长度的函数：

get_seq_len <- function(s){
  if(length(s) == 0) return(0)
  if(length(s) == 1) return(1)
  consec_lengths <- rle(c(1,s[-1] - s[-length(s)]))$lengths
  return(consec_lengths[1])
}

我们可以验证它是否有效

get_seq_len(numeric(0))
#> 0
get_seq_len(1)
#> 1
get_seq_len(1:4)
#> 4
get_seq_len(c(1:4,4:5))
#> 4 (because not consecutive)
get_seq_len(c(1,3))
#> 1 (not consecutive)

然后，我们可以简单地使用嵌套为每对配对执行

edges_long %>%
  group_by(ego,alter) %>%
  nest() %>%
  mutate(vec_waves = map(data,~ as.numeric(unlist(.x)))) %>% # convert dataframe to vector
  mutate(len = map_dbl(vec_waves,get_seq_len))
# A tibble: 8 x 5
# Groups:   ego,alter [8]
#     ego alter data             vec_waves   len
#    <dbl> <dbl> <list>           <list>    <dbl>
# 1     1     5 <tibble [2 x 1]> <dbl [2]>     2
# 2     1     4 <tibble [1 x 1]> <dbl [1]>     1
# 3     1     2 <tibble [1 x 1]> <dbl [1]>     1
# 4     1     3 <tibble [1 x 1]> <dbl [1]>     1
# 5     2     8 <tibble [3 x 1]> <dbl [3]>     3
# 6     3     4 <tibble [1 x 1]> <dbl [1]>     1
# 7     3     7 <tibble [2 x 1]> <dbl [2]>     1
# 8     3     6 <tibble [3 x 1]> <dbl [3]>     3

这可能是一种糟糕的方法，但这确实有效！

edges_wide <- edges_long %>% 
              select(ego,alter,wave) %>%
              group_by(ego,alter) %>% 
              mutate(col=seq_along(ego))%>% # add a column indicator
              spread(key=col,value=wave) %>%
              rename(col1 = "1",col2 = "2",col3 = "3",col4 = "4",col5 = "5",col6 = "6",col7 = "7") 
          
edges_wide <- edges_wide %>% 
              mutate(wave1 = case_when(col1 == 1 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave2 = case_when(col1 == 2 | col2 == 2 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave3 = case_when(col1 == 3 | col2 == 3 | col3 == 3 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave4 = case_when(col1 == 4 | col2 == 4 | col3 == 4 | col4 == 4 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave5 = case_when(col1 == 5 | col2 == 5 | col3 == 5 | col4 == 5 | col5 == 5 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave6 = case_when(col1 == 6 | col2 == 6 | col3 == 6 | col4 == 6 | col5 == 6 | col6 == 6 ~ 1,TRUE ~ as.numeric(0))) %>%
              mutate(wave7 = case_when(col1 == 7 | col2 == 7 | col3 == 7 | col4 == 7 | col5 == 7 | col6 == 7 | col7 == 7 ~ 1,TRUE ~ as.numeric(0))) %>%
              select(ego,wave1,wave2,wave3,wave4,wave5,wave6,wave7)
                   
most_consecutive_val = function(x,val = 1) {
   with(rle(x),if(all(values != val)) 0 else max(lengths[values == val]))
}

edges_wide$span <- apply(edges_wide[-c(1:2)],MARGIN = 1,most_consecutive_val)

data-manipulation dplyr igraph r tidyverse

获取网络R中友谊的时间长度

问题描述

解决方法

相关问答