按分隔符拆分列并删除其他值中包含的值

问题描述

我有一个以“;”分隔的类别列。即价值:

value <- "A > B > C; A > B > D; A > B > C > C1"

意思是:

当前产品属于类别“A > B > C”、类别“A > B > D”和类别“A > B > C > C1”

如果一个类别已包含在另一个类别中,则应将其删除。所以目标是:

expectedResult <- "A > B > D; A > B > C > C1"

因为“A > B > C > C1”包含“A > B > C”。

我该如何解决这个问题?

注意:我知道有数百个问题看起来很相似。但我就是找不到解决办法。

解决方法

这应该有效:

table partition

输出:


value <- "A > B > C; A > B > D; A > B > C > C1"
els <- strsplit( value,"; " )[[1]]

my_reducer  <- function(a,b) {
    v <- str_detect( b,fixed(a) )
    a <- a[!v]
    append(a,b)
}

paste( Reduce( my_reducer,els ),collapse="; " )

,

也许你可以试试下面的代码

v <- unlist(strsplit(value,";\\s+"))
idx <- colSums(`diag<-`(sapply(v,function(x) {
  p <- gsub(x,"",v,fix = TRUE)
  p != v & nchar(p) > 0
}),FALSE)) == 0
paste0(names(idx)[idx],collapse = "; ")

给出

[1] "A > B > D; A > B > C > C1"