quanteda - 计算前 n 个特征的稀疏比例

问题描述

我正在尝试获取语料库的前 n 个特征,然后检查前 n 个特征的稀疏比例。但是,我的编码效果不佳,因为稀疏性仅适用于 dfm 对象,但是如果我将稀疏性()放在 import xlwings workbooks = xlwings.books for workbook in workbooks: print(workbook.fullname) 之后,我将无法知道顶级特征的比例。 你能告诉我一些关于我的案例的建议吗?

预先感谢您的帮助!

dfm_remove(stopwords("en"))

解决方法

首先,按照您的方式创建 dfm,然后使用 n 将其限制为顶部 dfm_trim() 特征,然后将该结果发送到 sparsity()

所以:

dfm_trim(your_dfm,min_termfreq = n,termfreq_type = "rank") %>%
  sparsity()

在您的示例中,如果您希望 dfm 的稀疏性仅包含 3,000 个全球最频繁的术语,则将 3000 替换为 n

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...