问题描述
我一直在定期为我的电子商务客户进行网络抓取,直到最近才通过 read_html 没有任何问题。看来他们现在已经升级了他们的网站安全性,而我当前的尝试现在被阻止了。
由于这是一个预期的功能,我应该能够让他们将我添加到他们的白名单中(并且可能使用更有效的抓取技术)
因为我以前从未要求 IT 将爬虫列入白名单,我是否只需要他们将我的 IP 地址列入白名单?我需要创建某种机器人配置文件吗?任何帮助将不胜感激。现在,我只需要能够抓取原始 html 代码
解决方法
我把事情整理好了。他们需要我的用户代理字符串和我的 IP 地址的组合。所以我给他们发了 xxx.xxx.xxx.xxx,"ExampleBot; +https://example.net"
类似这样的事情适用于 read_html 命令:
html
该代码将页面的 html 文本读入 html 变量,以便我可以使用 rvest 解析它