搜索引擎如何在不考虑所有可能页面的情况下快速检索页面的相关子集？

在阅读有关搜索引擎的文章时，出现的前两个区域与 (A) PageRank 有关，即给定一组页面，根据网络流量模式按特征向量中心性对它们进行排名，以及 (B) 关键字/语义编码，例如 TF-IDF 或 word2vec。

我对这两个领域都很熟悉，但我很好奇，当搜索引擎查询“跑鞋”时，我无法想象在排名之前检索并执行数十亿个网页的编码并呈现给用户。是否有一些过程将查询映射到网页的半精细结构以限制检索到的候选页面？

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）