quanteda - 计算前 n 个特征的稀疏比例

问题描述

我正在尝试获取语料库的前 n 个特征，然后检查前 n 个特征的稀疏比例。但是，我的编码效果不佳，因为稀疏性仅适用于 dfm 对象，但是如果我将稀疏性（）放在 import xlwings workbooks = xlwings.books for workbook in workbooks: print(workbook.fullname) 之后，我将无法知道顶级特征的比例。你能告诉我一些关于我的案例的建议吗？

预先感谢您的帮助！

dfm_remove(stopwords("en"))

解决方法

首先，按照您的方式创建 dfm，然后使用 n 将其限制为顶部 dfm_trim() 特征，然后将该结果发送到 sparsity()。

所以：

dfm_trim(your_dfm,min_termfreq = n,termfreq_type = "rank") %>%
  sparsity()

在您的示例中，如果您希望 dfm 的稀疏性仅包含 3,000 个全球最频繁的术语，则将 3000 替换为 n。

quanteda r r

quanteda - 计算前 n 个特征的稀疏比例

问题描述

解决方法

相关问答