亚马逊抓取脚本使用了超过10GB的互联网软件包.python硒

问题描述

我在CSV文件中有2500个用于亚马逊产品的产品,并使用硒打开每个产品,以确保价格是否有所变化。 该脚本可以很好地工作,但是问题是需要10GB的互联网软件包,而且费用太多。

如何减少互联网的使用。

我正在使用Chrome网络驱动程序。

解决方法

您可以使用无头浏览器进行剪贴。由于没有要加载的GUI组件,它将大大减少您的Web流量。这样您最终将保存到Internet数据。

可以像无头的chrome浏览器一样创建驱动程序:

ch_Options = webdriver.ChromeOptions()
ch_Options.add_argument('--headless')
driver = webdriver.Chrome('<path to driver .exe>',options=ch_Options)
,

我不确定定价在Amazon中如何工作,但是每次读取文件时能否告诉您是否正在下载文件。将硒与chrome结合使用时,如果仅对2500个文件运行一次,则会占用过多资源。

您可能要检查是否有必要使用硒来下载CSV? 您可能会找到其他替代语言或库来更有效地处理CSV。