Common Crawl 数据按关键字搜索所有页面

我想知道是否可以使用python中的通用爬网api查找关键字并检索包含该关键字的页面。例如，如果我查找“堆栈溢出”，它将在 HTML 文件中找到关键字“堆栈溢出”所在的页面。我已经查看了 apis，但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复！

如果我是你，我不会为此使用 CommonCrawl。要使用 CommonCrawl，您必须遍历整个 CommonCrawl-Dataset。这是 28 亿个网页！

我建议的替代方法是使用 Microsoft 的 Bing WebSearch-API。您将获得一个易于使用的 API，每月可免费使用 1000 次。

通过此 API 进行搜索将生成包含查询关键字的网页。从那里，您可以下载网页的 html 源代码并在 python 中再次遍历它以查找关键字的所有用途。

相关问答