从稠密矩阵创建稀疏矩阵而不先初始化稠密矩阵

问题描述

对于 NLP 任务,我正在创建一个文档术语矩阵,其维度为 4280 x 90141,具有 >98% 的零。该矩阵的密集表示需要大量内存,因此我想将其创建为稀疏矩阵。

在此 link 中,他们建议使用 Scipy。但据我所知,在进行稀疏转换之前,它需要对稠密矩阵进行初始化。是否有一个包/可用代码可以在不首先初始化密集矩阵的情况下创建稀疏文档项表示?

我正在考虑类似的事情:

dense_doc_term = []

for doc in corpus:
    dense_doc_term.append(Counter(doc))

这会是一个方法吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)