有没有一种方法可以同时计算一个单词和ngram的频率?

问题描述

现在,在使用R和packageededa的文本处理中,我需要执行两个步骤:

一方面,我针对诸如citiziens之类的单个单词计算目标单词的出现频率。 另一方面,我计算ngram的频率。

txt<- "for this purpose citizens and sydney siders are the same"

tok_single<- tokens_select(tokens(txt),pattern = "citizens",padding = TRUE)
textstat_frequency(dfm(tok_single))
####bigrams
toks_bigram <- tokens_select(tokens_ngrams(tokens(txt),n=2:3),pattern = c("sydney_siders"),padding = TRUE)
                            
textstat_frequency(dfm(toks_bigram))
                        

最后,我遇到了一个问题,就是字典中的关键字由单个单词(例如市民)和多个单词(如悉尼Siders)组成。现在,我的计算分两步完成。分别计算1克和n克的令牌。有组合ngram和1-gram的功能吗?

例如,我想一步计算字典项的频率。

mydic<-dictionary(list(citizen=c("citizen*","sydney siders","public")))

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...