木槌推荐字数

问题描述

我正在尝试使用 Mallet 对 topcis 进行建模。我多次在博客文章和研究论文中看到建议限制每个文档的字数 - 在大多数情况下大约 1000 个字。当然,LDA 需要最少字数这一事实是显而易见的。但是,建议将较大的文档拆分为较小的块是有技术原因的吗?我的文档范围在 5k-20k 字之间。将 5k 文档拆分为多个文档会更好吗?

非常感谢!

解决方法

将长文档拆分成更小的块有几个原因。

不过,直观的原因是更长的文档更有可能从更多的主题中生成。您当然可以设置参数来说明这一点,但我们知道,出现在彼此附近的词与出现得更远(甚至在同一文档中)的词更有可能属于同一主题。我们可以通过拆分较大的文档来解释这个距离。将此视为将一本书分成几章,而不是将整本书放入模型中。

将文档分成更小的块也有计算上的原因。这与生成较长文档的相对计算成本与生成一些较短文档的成本有关,以及针对较长文档与较短文档的近似主题的相对计算成本。我不记得我脑子里的数学,但在 1,000,000 个 100 个单词的文档上运行模型通常比在 100,000 个每个 1000 个单词的文档上运行模型要快。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...