抓取谷歌趋势数据时被阻止的问题

问题描述

一段时间以来,我们一直在使用 https://github.com/PMassicotte/gtrendsR 按关键字提取 Google 趋势数据。

我们通常的方法是启动几个不同的盒子,发出一些请求,杀死这些盒子,然后启动其他盒子。我们每周做一次。
我们这样做是为了遵守谷歌的配额/限制。

我们这样做了大约 6 个月以上,但本周它已停止工作。我们使用的任何框 - 即使使用不同的 IP - 都会返回“HTTP 429 请求过多”。

我们所有的盒子都在我们的 AWS 账户中运行。如果来自同一个“地方”,谷歌(或任何人)是否能够阻止不同的 IP?这就是我认为正在发生的事情,但我不完全明白。

我正在努力学习/了解互联网的这一方面是如何运作的,如果是这样,那也没关系。这意味着我们已经达到了将所有抓取框保存在同一个 AWS 云中的限制。

我们在使用 gtrendsr 包时遇到的错误是:

Error in get_widget(comparison_item,category,gprop,hl,cookie_url,:
  widget$status_code == 200 is not TRUE

围绕这个问题有很多讨论,在过去 4 年多的时间里,人们做了不同的事情来处理它。大多数情况下,通常是:更改 IP。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)