gw_idf 给出与文档中所述不同的输出维度

问题描述

在 R 中,我对文档术语矩阵使用 gw_idf() 加权方案(每行代表一个文档,每列代表一个唯一的词),它是 lsa 库的一部分。 在 package documentation(第 23 页)中,声明:

'gw_idf() 在 n×m 矩阵中返回逆文档频率。每个单元格是 1 加上 文档数除以文档数的对数 出现。'

但是,当我运行以下代码时:

readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile),readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus,control = list(stemming = FALSE,stopwords=FALSE,minWordLength=3,removeNumbers=TRUE,removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)

gw_idf 现在是一个长度等于文档数的向量。

所以,如果我理解正确的话:文档指出输出应该是一个矩阵,而我得到的输出一个向量。我对文档的解释在这里不正确吗?还是文档不正确?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)