问题描述
我对文本分析比较陌生,我遇到了一些必须有 a)
名称和 b)
处理它的罐头程序,但我没有的话知道从哪里开始寻找。
这是一个提供上下文的示例管道。然而,我对这篇文章唯一感兴趣的部分是 mutate
内部发生的事情。
w2 <- warnie %>%
select(id,dislikes) %>%
unnest_tokens(input = dislikes,output = 'word') %>%
anti_join(no_negation) %>%
group_by(id) %>%
summarize(dislikes = paste(word,collapse = ' ')) %>%
ungroup() %>%
mutate(dislikes = str_replace(dislikes,fixed('not '),'not_'),dislikes = str_replace(dislikes,fixed('bernie sanders'),'bernie_sanders'),fixed('joe biden'),'jb'),fixed('democratic party'),'dp'),fixed('green new deal'),'gnd'),fixed('donald trump'),'trump')) %>%
unnest_tokens(input = dislikes,output = 'bigram',token = 'ngrams',n = 2) %>%
count(bigram)
如您所见,我正在做的是创建确保多词词汇单位是可识别的词,unigrams -- 好吧,我还将“not”附加到它否定的任何内容上,这是一个略有不同的问题.
但我想知道经验丰富的文本分析师是做什么的?我知道您肯定会创建一个函数而不是让它占用管道中的多少行,但即使在一个函数中,单个调用 str_replace
(或 grep
如果更多你的风格)一定非常低效。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)