gw_idf 给出与文档中所述不同的输出维度

问题描述

在 R 中，我对文档术语矩阵使用 gw_idf() 加权方案（每行代表一个文档，每列代表一个唯一的词），它是 lsa 库的一部分。在 package documentation（第 23 页）中，声明：

'gw_idf() 在 n×m 矩阵中返回逆文档频率。每个单元格是 1 加上文档数除以文档数的对数出现。'

但是，当我运行以下代码时：

readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile),readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus,control = list(stemming = FALSE,stopwords=FALSE,minWordLength=3,removeNumbers=TRUE,removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)

gw_idf 现在是一个长度等于文档数的向量。

所以，如果我理解正确的话：文档指出输出应该是一个矩阵，而我得到的输出是一个向量。我对文档的解释在这里不正确吗？还是文档不正确？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

lsa r r weighting