你知道为什么这段代码会给我这些不同的结果吗?

问题描述

所以,我有一个用于亚马逊页面的抓取代码,但是当我想从图像中获取“src”属性时,它给了我奇怪的结果(基本上有时它给了我正确的 src,有时没有)。

我使用了这个代码

srcImage = scraperObject.find(id=idFrontimage)['src']
print(srcImage)

它给了我这个:



那是错误的,或者,这个:

https://images-eu.ssl-images-amazon.com/images/I/519iCKXNl1L._SY264_BO1,204,203,200_QL40_ML2_.jpg

完全正确!!! 页面是一样的,它从一个运行变成另一个......

寻求帮助

解决方法

是的,有时亚马逊服务器会在 src= 属性中返回 URL,有时会返回 base64 编码的图像。但是您可以选择亚马逊存储纯 URL 的其他属性 ("data-a-dynamic-image"):

import json
import requests
from bs4 import BeautifulSoup


url = "https://www.amazon.it/Max90-storia-emozioni-decennio-fighissimo/dp/8820070421/ref=sr_1_1?dchild=1&qid=1618042585&s=books&sr=1-1"

headers = {
    "User-Agent": "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:87.0) Gecko/20100101 Firefox/87.0"
}

soup = BeautifulSoup(requests.get(url,headers=headers).content,"html.parser")
data = json.loads(soup.select_one("#imgBlkFront")["data-a-dynamic-image"])

# print image with highest resolution:
print(sorted(data.items(),key=lambda k: k[1],reverse=True)[0][0])

一直打印:

https://images-na.ssl-images-amazon.com/images/I/519iCKXNl1L._SX360_BO1,204,203,200_.jpg