问题描述
我正在尝试获取语料库的前 n 个特征,然后检查前 n 个特征的稀疏比例。但是,我的编码效果不佳,因为稀疏性仅适用于 dfm 对象,但是如果我将稀疏性()放在 import xlwings
workbooks = xlwings.books
for workbook in workbooks:
print(workbook.fullname)
之后,我将无法知道顶级特征的比例。
你能告诉我一些关于我的案例的建议吗?
预先感谢您的帮助!
dfm_remove(stopwords("en"))
解决方法
首先,按照您的方式创建 dfm,然后使用 n
将其限制为顶部 dfm_trim()
特征,然后将该结果发送到 sparsity()
。
所以:
dfm_trim(your_dfm,min_termfreq = n,termfreq_type = "rank") %>%
sparsity()
在您的示例中,如果您希望 dfm 的稀疏性仅包含 3,000 个全球最频繁的术语,则将 3000
替换为 n
。