如何在python笔记本中使用BeautfulSoup在网站页面内抓取特定的url

问题描述

我正在抓捕一个用于教育学习目的的网站。我的问题是如何在网站的特定页面内抓取网址链接。示例：see this link 它在图片下方包含一个网址。那就是我的观点，要抓住每一页的链接。我尝试了这个，但是没有用： Websitelist=soup.find_all('div',class_='field-item even') itemz='field-item even' for tmp in Websitelist: for link in tmp.find_all('a',href=True): print(Websitelist)

我附上了它的inspect元素代码的样本图片。 image 注意：类名不是特定的，这意味着它在inspect元素代码中多次使用。我在互联网上尝试了很多，但无法解决。感谢您的帮助

解决方法

这是完美的答案 它在做什么

查找类为div的所有even元素
如果div的子级为a，并且a的属性为href，则创建新的div列表。
打印href属性

divs = soup.find_all("div",class_="even")
a = [i.find("a") for i in divs if i.find("a") and i.find("a").has_attr("href")]
print(a[0]['href'])
>>> http://www.corporate.danone.it

beautifulsoup jupyter-notebook python web-scraping