Common Crawl 数据按关键字搜索所有页面

问题描述

我想知道是否可以使用python中的通用爬网api查找关键字并检索包含该关键字的页面。例如,如果我查找“堆栈溢出”,它将在 HTML 文件中找到关键字“堆栈溢出”所在的页面。我已经查看了 apis,但我只能进行 URL 查找 - 而不是关键字。感谢您提前回复

解决方法

如果我是你,我不会为此使用 CommonCrawl。要使用 CommonCrawl,您必须遍历整个 CommonCrawl-Dataset。这是 28 亿个网页!

我建议的替代方法是使用 Microsoft 的 Bing WebSearch-API。您将获得一个易于使用的 API,每月可免费使用 1000 次。

通过此 API 进行搜索将生成包含查询关键字的网页。从那里,您可以下载网页的 html 源代码并在 python 中再次遍历它以查找关键字的所有用途。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...