当矩阵太大而无法进行常规操作时,如何删除 DFM 中的零项?

问题描述

我有以下问题:我将语料库转换为 dfm,而这个 dfmm 有一些零条目,我需要在拟合 LDA 模型之前将其删除。我通常会这样做:

OutDfm <- dfm_trim(dfm(corpus,tolower = TRUE,remove = c(stopwords("english"),stopwords("german"),stopwords("french"),stopwords("italian")),remove_punct = TRUE,remove_numbers = TRUE,remove_separators = TRUE,stem = TRUE,verbose = TRUE),min_docfreq = 5)

Creating a dfm from a corpus input...
   ... lowercasing
   ... found 272,912 documents,112,588 features
   ... removed 613 features
   ... stemming features (English),trimmed 27491 feature variants
   ... created a 272,912 x 84,515 sparse dfm
   ... complete. 
Elapsed time: 78.7 seconds.


# remove zero-entries
raw.sum=apply(OutDfm,1,FUN=sum)
which(raw.sum == 0)
OutDfm = OutDfm[raw.sum!=0,]

然而,当我尝试执行最后的操作时,我得到:Error in asMethod(object) : Cholmod error 'problem too large' at file ../Core/cholmod_dense.c,line 105 暗示矩阵太大而无法操作。

有没有人遇到过并解决过这个问题?删除 0 个条目的任何替代策略?

非常感谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...