问题描述
我在我的 node.js 抓取工具中使用 scrape-it(用于识别正确的关键字使用),但被某些网站识别为机器人并且没有获取任何内容。有没有办法为 GET 请求配置一个已知的 user agent 标头以绕过块?
解决方法
您可以通过将选项对象传递给 scrape-it 来设置标头,包括 User-agent:
scrapeIt({
url: "http://example.com",headers: { "User-agent": "known-user-agent-of-choice" }
},{
// some scrapeHTML options ...
})
.then(
// some code ...
);