潜在Dirichlet分配和使用MALLET分析两个数据集

问题描述

我目前正在分析两个数据集。数据集A有大约600000+个文档,而数据集B有大约7000+个文档。这是否意味着主题输出将具有更大的N,因此将更多地与数据集A有关? rapidminer中槌槌的输出仍然说明每个主题下的文件。我想知道是否有办法使两个数据集具有相等的权重?

解决方法

我假设您将培训文档中的两个文档全部混合在一起并执行培训。在此假设下,主题输出很有可能更多地是来自A而不是B的数据集“来”,因为Gibbs采样将根据令牌的同时出现来构造主题,而令牌也很可能也来自A 。但是,跨两个数据集的主题间或主题相似性也是可能的。

您可以代替对文档A进行抽样,以使文档A与文档B的数量相同,前提是它们的主题结构没有太大不同。或者,您可以检查--output-state参数的日志输出,以准确查看每个令牌分配的主题(z)。