当矩阵太大而无法进行常规操作时，如何删除 DFM 中的零项？

问题描述

我有以下问题：我将语料库转换为 dfm，而这个 dfmm 有一些零条目，我需要在拟合 LDA 模型之前将其删除。我通常会这样做：

OutDfm <- dfm_trim(dfm(corpus,tolower = TRUE,remove = c(stopwords("english"),stopwords("german"),stopwords("french"),stopwords("italian")),remove_punct = TRUE,remove_numbers = TRUE,remove_separators = TRUE,stem = TRUE,verbose = TRUE),min_docfreq = 5)

Creating a dfm from a corpus input...
   ... lowercasing
   ... found 272,912 documents,112,588 features
   ... removed 613 features
   ... stemming features (English),trimmed 27491 feature variants
   ... created a 272,912 x 84,515 sparse dfm
   ... complete. 
Elapsed time: 78.7 seconds.


# remove zero-entries
raw.sum=apply(OutDfm,1,FUN=sum)
which(raw.sum == 0)
OutDfm = OutDfm[raw.sum!=0,]

然而，当我尝试执行最后的操作时，我得到：Error in asMethod(object) : Cholmod error 'problem too large' at file ../Core/cholmod_dense.c,line 105 暗示矩阵太大而无法操作。

有没有人遇到过并解决过这个问题？删除 0 个条目的任何替代策略？

非常感谢！

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

dataframe lda quanteda r r

当矩阵太大而无法进行常规操作时，如何删除 DFM 中的零项？

问题描述

解决方法

相关问答