如果要使用Python抓取图像,如何在python中选择<div data-image ='.....“”>

问题描述

我正在使用Python从网站上抓取一些图像。 在该网站上,所有图像都使用<div data-image="https://......">进行存储。如何使用Python(Beautiful Soup 4)下载图像?非常感谢!

解决方法

此代码用于下载和保存图像

import os
import urllib
import urllib2
from bs4 import BeautifulSoup

url = "XXX"
html = urllib2.urlopen(url)
soup = BeautifulSoup(html)

imgs = soup.findAll("div",{"class":"thumb-pic"})
 for img in imgs:
     imgUrl = img.a['href'].split("imgurl=")[1]
     urllib.urlretrieve(imgUrl,os.path.basename(imgUrl))
,

您可以使用MediaIoBaseDownload选择具有soup.select('div[data-image]')属性的所有<div>。然后遍历这些div并下载它们(例如,带有请求):

data-image=