Solr:对文章运行TF-IDF并取回已过滤的内容

问题描述

目标:我有数以百万计的文章,并且我想删除通用词(TF-IDF值小于阈值)并将文章取回。

Solr具有Function Queries,例如TF和IDF,但我必须查询每个单个词(单词)。如果每篇文章有大约300个单词,那么将有3亿个查询。太贵了。

诸如stopwords.txt之类的静态文件由于某些复杂的原因而无法正常工作。

有没有办法让Solr将过滤后的内容还给我?我当时正在考虑在<fieldType>添加一个新的schema.xml,但是我不知道应该在<filter>中放入哪个<analyzer>

例如,如果isancompany的TF-IDF值低于阈值,则

Original content: "Apple Inc. is an American multinational technology company."
Filtered content: "Apple Inc. American multinational technology"

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)