问题描述
目标:我有数以百万计的文章,并且我想删除通用词(TF-IDF值小于阈值)并将文章取回。
Solr具有Function Queries,例如TF和IDF,但我必须查询每个单个词(单词)。如果每篇文章有大约300个单词,那么将有3亿个查询。太贵了。
诸如stopwords.txt
之类的静态文件由于某些复杂的原因而无法正常工作。
有没有办法让Solr将过滤后的内容还给我?我当时正在考虑在<fieldType>
中添加一个新的schema.xml
,但是我不知道应该在<filter>
中放入哪个<analyzer>
。
例如,如果is
,an
,company
的TF-IDF值低于阈值,则
Original content: "Apple Inc. is an American multinational technology company."
Filtered content: "Apple Inc. American multinational technology"
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)