Solr：对文章运行TF-IDF并取回已过滤的内容

目标：我有数以百万计的文章，并且我想删除通用词（TF-IDF值小于阈值）并将文章取回。

Solr具有Function Queries，例如TF和IDF，但我必须查询每个单个词（单词）。如果每篇文章有大约300个单词，那么将有3亿个查询。太贵了。

诸如stopwords.txt之类的静态文件由于某些复杂的原因而无法正常工作。

有没有办法让Solr将过滤后的内容还给我？我当时正在考虑在<fieldType>中添加一个新的schema.xml，但是我不知道应该在<filter>中放入哪个<analyzer>。

例如，如果is，an，company的TF-IDF值低于阈值，则

Original content: "Apple Inc. is an American multinational technology company."
Filtered content: "Apple Inc. American multinational technology"

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）