高频 Youtube 抓取 - IP 轮换最佳选择?- XS 云服务器的 VPN / 代理 / 出租 IP?

问题描述

我在使用 Scrapy / Python 编写 Youtube 网页抓取程序时遇到技术问题。 我很清楚网络上使用的不同反抓取系统。但是,其中一个给我带来了问题。

我的脚本的预测抓取频率将是每秒 189 个数据集(页面),大约 208MB/s。 我希望尽可能少的 IP 禁令、黑名单等。

我有一个 nordVPN 订阅,我可以使用超过 5000 个 VPN + nordVPN CLI 与 Openpyn 库相关联,以便更好地控制。我知道使用免费代理很容易(通过代理的任何数据都不会受到损害,因此非加密对我来说无关紧要),但速度对我来说似乎太低了。但是付费代理太贵了(最低 180 欧元/月)。 我以为我明白我可以使用我的 VPN 作为代理。但恐怕我非常频繁地获取 Youtube 页面会迫使我每秒钟更换一次 VPN。恐怕从一个 VPN 切换到另一个 VPN 的时间太长了至少 5 秒(因此服务器有 5/6 的时间未使用)。或者有没有更优的切换方式或者切换速度更快的付费VPN?

我还考虑过租用 IP(例如:8 个 IP,每月 7.80 美元)并以轮换快速的方式将它们分配给我的两个裸机服务器 (ionos.com)。但是是否可能/允许(可能在 Cloud Server XS 上)?

你怎么看?保持尽可能高的抓取频率的最佳方法是什么?

PS:Youtube Data V3 API 是不可能的,因为每天 10'000 个配额,而我每天需要数千万个。 我准备为 VPN、IP、代理付费,所以我对付费解决方案(但合理)感兴趣。

真诚的,久介

解决方法

所有与 google/youtube 相关的内容都使用 Bright Data。好消息是他们有大约 7200 万个代理 IP。那里有很多类似的服务。您可以轻松地将代理服务与 scrapy 框架集成,而不是使用 VPN 服务。因此,您可以保持相同的 IP 直到流程结束,也可以根据每个请求进行更改。

我只是添加了一个单行 shell 脚本来展示如何轻松地与代理集成

curl --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-xxxxxxxxxx-zone-residential:xxxxxxxxx "http://lumtest.com/myip.json"

注意:我不推荐明亮的代理,您可以使用除 VPN 服务之外的任何代理服务。