问题描述
我有一个包含 99,814 个条目的矩阵,其中包含评论及其各自的极性(正面或负面),我希望对语料库的术语进行一些特征选择,以仅选择那些对识别每个条目更具决定性的条目在我将其传递给模型之前得分。
问题是我目前正在处理 16,554 个术语,因此尝试将文档术语矩阵转换为稀疏矩阵以便我可以对术语应用卡方之类的东西,这让我得到了“内存不足的 Cholmod 错误”留言。
所以我的问题是:是否有任何可行的方法可以获得矩阵的所有项的卡方值?还是我运气不好?
这里有一些示例代码,可以让人们了解我正在尝试做什么。我正在使用 text2vec 库对文本进行转换。
library(text2vec)
review_matrix <- data.frame(id=c(1,2,3),review=c('This review is negative','This review is positive','This review is positive'),sentiment=c('Negative','Positive','Positive'))
tokenizer <- word_tokenizer
tokens <- tokenizer(review_matrix$review)
iterator <- itoken(tokens,ids = review_matrix$reviewId,progressbar = FALSE)
vocabulary <- create_vocabulary(iterator)
vectorizer <- vocab_vectorizer(vocabulary)
document_term_matrix <- create_dtm(iterator,vectorizer)
model_tf_idf <- TfIdf$new()
document_term_matrix <- model_tf_idf$fit_transform(document_term_matrix)
# This is where I am trying to do the chisq.test
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)