相似文档的数量，引理 vs 词干

我正在使用引理和词干（分别）进行文档相似性项目。

与我使用的模型相比，lemma 模型似乎找到了更多相似的文档（显然是相同的咨询）。

与我的同事讨论这个问题时，我们发现词干模型上的字典比词干模型更大。这是有道理的，因为“引理词”比“词干词”多。但如果是这种情况，那么引理模型不应该更“严格”，从而显示更少的相似文档，因为要与之比较的单词更多吗？

我的同事有一个理论，即 lemma 可能会显示更多相似的文档，因为由于词袋越大，它们之间的关系或组合的数量就越多。这听起来合乎逻辑。你怎么认为？与词干相比，对于相同的咨询，引理模型为什么会找到更多相似的文档，这有什么解释？

谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）