问题描述
我正在尝试清理一些文本数据,并在标记化之后,例如删除标点符号,我想将令牌对象转换为向量/数据帧/语料库。
我目前的做法是:
library(quanteda)
library(dplyr)
raw <- c("This is text #1.","And a second document...")
tokens <- raw %>% tokens(remove_punct = T)
docs <- lapply(tokens,toString) %>% gsub(pattern = ",",replacement = "")
是否有更“量化”或至少更简单的方法来做到这一点?
解决方法
这就是我要做的,它将文档名称保留为输出向量中的元素名称。 (但如果您不想保留它们,可以添加 USE.NAMES = FALSE
。)
> sapply(tokens,function(x) paste(as.character(x),collapse = " "))
text1 text2
"This is text #1" "And a second document"
此处不需要 library(dplyr)
。