在 scrape-it 中设置用户代理

问题描述

我在我的 node.js 抓取工具中使用 scrape-it（用于识别正确的关键字使用），但被某些网站识别为机器人并且没有获取任何内容。有没有办法为 GET 请求配置一个已知的 user agent 标头以绕过块？

解决方法

您可以通过将选项对象传递给 scrape-it 来设置标头，包括 User-agent：

scrapeIt({
    url: "http://example.com",headers: { "User-agent": "known-user-agent-of-choice" }
},{
  // some scrapeHTML options ...
})
.then(
 // some code ...
);

user-agent web-scraping