为文本分析高效创建词法单元

问题描述

我对文本分析比较陌生,我遇到了一些必须有 a) 名称b) 处理它的罐头程序,但我没有的话知道从哪里开始寻找。

这是一个提供上下文的示例管道。然而,我对这篇文章唯一感兴趣的部分是 mutate 内部发生的事情。

w2 <- warnie %>%
  select(id,dislikes) %>% 
  unnest_tokens(input = dislikes,output = 'word') %>%
  anti_join(no_negation) %>% 
  group_by(id) %>% 
  summarize(dislikes = paste(word,collapse = ' ')) %>% 
  ungroup() %>%
  mutate(dislikes = str_replace(dislikes,fixed('not '),'not_'),dislikes = str_replace(dislikes,fixed('bernie sanders'),'bernie_sanders'),fixed('joe biden'),'jb'),fixed('democratic party'),'dp'),fixed('green new deal'),'gnd'),fixed('donald trump'),'trump')) %>% 
  unnest_tokens(input = dislikes,output = 'bigram',token = 'ngrams',n = 2) %>%
  count(bigram)

如您所见,我正在做的是创建确保多词词汇单位是可识别的词,unigrams -- 好吧,我还将“not”附加到它否定的任何内容上,这是一个略有不同的问题.

但我想知道经验丰富的文本分析师是做什么的?我知道您肯定会创建一个函数而不是让它占用管道中的多少行,但即使在一个函数中,单个调用 str_replace (或 grep 如果更多你的风格)一定非常低效。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...