相似文档的数量,引理 vs 词干

问题描述

我正在使用引理和词干(分别)进行文档相似性项目。

与我使用的模型相比,lemma 模型似乎找到了更多相似的文档(显然是相同的咨询)。

与我的同事讨论这个问题时,我们发现词干模型上的字典比词干模型更大。这是有道理的,因为“引理词”比“词干词”多。但如果是这种情况,那么引理模型不应该更“严格”,从而显示更少的相似文档,因为要与之比较的单词更多吗?

我的同事有一个理论,即 lemma 可能会显示更多相似的文档,因为由于词袋越大,它们之间的关系或组合的数量就越多。这听起来合乎逻辑。 你怎么认为?与词干相比,对于相同的咨询,引理模型为什么会找到更多相似的文档,这有什么解释?

谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...