查找 DAG 中节点值的累积总和

问题描述

假设我有以下有向无环图 (DAG),每个节点的权重为 1。

simple DAG

我感兴趣的是根据其祖先的值计算每个节点的累积总和。假设我之前说过每个节点的权重为1,那么这就是我期望得到的

cumulative sum per node

这就是我尝试做的:

 library(tidygraph,quietly = TRUE) 
 library(tidyverse)
 library(ggraph)

 # create adjacencies
 grafo_df <- tribble(
  ~from,~to,"C","A","B","D","D")
 
 # create the graph
 grafo <- as_tbl_graph(grafo_df)
 
 
 # calculate accumulated sum
 grafo %>% 
  arrange(node_topo_order()) %>% 
  mutate(
   
   revenue = 1,cum_weight = map_dfs(1,.f = function(node,path,...) {
    
    sum(.N()$revenue[c(node,path$node)])
    
   })) %>% 
  as_tibble() %>% 
  unnest("cum_weight")
 
#> # A tibble: 4 x 3
#>   name  revenue cum_weight
#>   <chr>   <dbl>      <dbl>
#> 1 C           1          1
#> 2 A           1          2
#> 3 B           1          2
#> 4 D           1          3

reprex package (v2.0.0) 于 2021 年 5 月 13 日创建

如你所见,D的累加和结果是3而不是4,因为D的值应该是A和B的累加值之和。我不明白为什么D不加4>

我试图理解给定 here解决方案,但很难理解它

如何获得累计金额?

更新 #1

我(暂时)不关心算法的复杂性,也就是说,如果算法在 O(V + E) 中执行它,则无关紧要。

this题中提到的重要一点是关于两次计数的问题,即A的值的部分和等于C(1) + A(1) = 2,并且B 的值的部分和等于 C(1) + B (1) = 2,所以说 D 的值不等于 A (2) + B(2) 的部分和,因为C 的值会重复我认为它不适用于这种情况,原因如下:

让我们假设这 4 个节点(A、B、C 和 D)中的每一个都是互联网节点,每个节点产生 1 美元的收入,因此这 4 个节点的总累积收入将为 4 美元。如果 D 是其余节点的收敛节点,那么在 D 停止工作的情况下,其余节点和 D 的收入将不再可能,因此其价值为 4 美元。

更新 #2

如果我添加一条从 C 到 D 的新路径,那么 D 的值应该始终为 4,因为依赖节点的数量是保持不变的,也就是说,重要的是累积总和中的依赖节点数量。例如,在@ThomasIsCoding 提出的解决方案中,如果我添加这个新路径,D 的值现在是 5,我认为部分原因是他们的算法使用度数作为参数来计算累积总和,但是,如果我添加一个附加节点则计算正确。

更新#3

我放置的示例很简单,目的是使目标易于理解,但是,我没有指定它应该可泛化为具有三种不同拓扑的许多节点的图。最外层为树木,中间层为环,最内层为全网状。

解决方法

这是一个 igraph 选项,使用 distance 和参数 mode = "in"

  • 如果您的节点未加权,即所有节点的revenue=1
g <- graph_from_data_frame(grafo_df)

data.frame(name = names(V(g))) %>%
  mutate(revenue = 1) %>%
  mutate(cum_weight = rowSums((!is.infinite(distances(g,mode = "in"))) %*% diag(revenue)))

给你

  name revenue cum_weight
1    C       1          1
2    A       1          3
3    B       1          2
4    F       1          1
5    D       1          5
  • 如果您的节点是加权的,例如,
data.frame(name = names(V(g))) %>%
  mutate(revenue = 1:n()) %>%
  mutate(cum_weight = rowSums((!is.infinite(distances(g,mode = "in"))) %*% diag(revenue)))

给你

  name revenue cum_weight
1    C       1          1
2    A       2          7
3    B       3          4
4    F       4          4
5    D       5         15

数据

grafo_df <- tribble(
  ~from,~to,"C","A","B","D","F","A"
)

plot(g) 的 DAG 给出为

enter image description here

,

现在问题很清楚了,所以我提出了一个算法,我无法编码,因为我不知道您使用的语言。

对于图中的每个节点 Ni,我们将计算祖先集合 Ai,然后每个节点的累积总和将为 |Ai| + 1.

  1. 初始化所有具有空祖先集的节点 Ai = {}
  2. 从一个包含所有节点的集合 S0 开始
  3. 初始化下一组Sn+1
  4. 对每个节点 N 迭代 Sn:
  5. 对于具有来自 N 的传入边的所有节点 D:
    1. 将 D 的祖先集与 N 的祖先集加上 N 本身合并
    2. 移除egde N->D
  6. 如果 D 没有其他传入边,则将其添加到 Sn+1
  7. 如果 Sn+1 不为空,将 pass 增加到 n+1 并从 2 开始重复。

这个解决方案的最大限制是复杂,我稍后会尝试找到一些优化的解决方案。