r White Hat webscrape 白名单

我一直在定期为我的电子商务客户进行网络抓取，直到最近才通过 read_html 没有任何问题。看来他们现在已经升级了他们的网站安全性，而我当前的尝试现在被阻止了。

由于这是一个预期的功能，我应该能够让他们将我添加到他们的白名单中（并且可能使用更有效的抓取技术）

因为我以前从未要求 IT 将爬虫列入白名单，我是否只需要他们将我的 IP 地址列入白名单？我需要创建某种机器人配置文件吗？任何帮助将不胜感激。现在，我只需要能够抓取原始 html 代码

我把事情整理好了。他们需要我的用户代理字符串和我的 IP 地址的组合。所以我给他们发了 xxx.xxx.xxx.xxx,"ExampleBot; +https://example.net"

类似这样的事情适用于 read_html 命令：

html

该代码将页面的 html 文本读入 html 变量，以便我可以使用 rvest 解析它