问题描述
我正在使用引理和词干(分别)进行文档相似性项目。
与我使用的模型相比,lemma 模型似乎找到了更多相似的文档(显然是相同的咨询)。
与我的同事讨论这个问题时,我们发现词干模型上的字典比词干模型更大。这是有道理的,因为“引理词”比“词干词”多。但如果是这种情况,那么引理模型不应该更“严格”,从而显示更少的相似文档,因为要与之比较的单词更多吗?
我的同事有一个理论,即 lemma 可能会显示更多相似的文档,因为由于词袋越大,它们之间的关系或组合的数量就越多。这听起来合乎逻辑。 你怎么认为?与词干相比,对于相同的咨询,引理模型为什么会找到更多相似的文档,这有什么解释?
谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)