问题描述
在 R 中,我对文档术语矩阵使用 gw_idf()
加权方案(每行代表一个文档,每列代表一个唯一的词),它是 lsa
库的一部分。
在 package documentation(第 23 页)中,声明:
'gw_idf() 在 n×m 矩阵中返回逆文档频率。每个单元格是 1 加上 文档数除以文档数的对数 出现。'
但是,当我运行以下代码时:
readfile <- readLines(source)
corpus <- Corpus(VectorSource(readfile),readerControl=list(language="en"))
document_term_matrix <- as.matrix(DocumentTermMatrix(corpus,control = list(stemming = FALSE,stopwords=FALSE,minWordLength=3,removeNumbers=TRUE,removePunctuation=TRUE )))
gw_idf <- gw_idf(document_term_matrix)
gw_idf
现在是一个长度等于文档数的向量。
所以,如果我理解正确的话:文档指出输出应该是一个矩阵,而我得到的输出是一个向量。我对文档的解释在这里不正确吗?还是文档不正确?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)