问题描述
执行TF-IDF实验,得到一维稀疏矩阵矢量输出,该输出对应于每个句子的tfidf得分。密集输出如下:
[0,0.1349,0.4278,...]
我想执行其他归一化操作,以找出我在文档中的哪组句子中最有意义的。为此,我需要:
- 稀疏矩阵的总和:我通过
.sum()
获得
- 稀疏矩阵中非空值的数量,即其'非空长度'
关于第二点,我知道我可以用todense()
转换稀疏矩阵,然后用np.where()
执行一些Numpy操作并访问.shape[0]
。
但是,为了优化我的代码,我想保留尽可能少的稀疏矩阵和运算。有什么办法吗?
感谢您的帮助!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)