为文本分析高效创建词法单元

问题描述

我对文本分析比较陌生，我遇到了一些必须有 a) 名称和 b) 处理它的罐头程序，但我没有的话知道从哪里开始寻找。

这是一个提供上下文的示例管道。然而，我对这篇文章唯一感兴趣的部分是 mutate 内部发生的事情。

w2 <- warnie %>%
  select(id,dislikes) %>% 
  unnest_tokens(input = dislikes,output = 'word') %>%
  anti_join(no_negation) %>% 
  group_by(id) %>% 
  summarize(dislikes = paste(word,collapse = ' ')) %>% 
  ungroup() %>%
  mutate(dislikes = str_replace(dislikes,fixed('not '),'not_'),dislikes = str_replace(dislikes,fixed('bernie sanders'),'bernie_sanders'),fixed('joe biden'),'jb'),fixed('democratic party'),'dp'),fixed('green new deal'),'gnd'),fixed('donald trump'),'trump')) %>% 
  unnest_tokens(input = dislikes,output = 'bigram',token = 'ngrams',n = 2) %>%
  count(bigram)

如您所见，我正在做的是创建确保多词词汇单位是可识别的词，unigrams -- 好吧，我还将“not”附加到它否定的任何内容上，这是一个略有不同的问题.

但我想知道经验丰富的文本分析师是做什么的？我知道您肯定会创建一个函数而不是让它占用管道中的多少行，但即使在一个函数中，单个调用 str_replace （或 grep 如果更多你的风格）一定非常低效。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

n-gram nlp r r

为文本分析高效创建词法单元

问题描述

解决方法

相关问答