如何在python笔记本中使用BeautfulSoup在网站页面内抓取特定的url

问题描述

我正在抓捕一个用于教育学习目的的网站。 我的问题是如何在网站的特定页面内抓取网址链接。 示例:see this link 它在图片下方包含一个网址。 那就是我的观点,要抓住每一页的链接。 我尝试了这个,但是没有用: Websitelist=soup.find_all('div',class_='field-item even') itemz='field-item even' for tmp in Websitelist: for link in tmp.find_all('a',href=True): print(Websitelist)

我附上了它的inspect元素代码的样本图片image 注意:类名不是特定的,这意味着它在inspect元素代码中多次使用。 我在互联网上尝试了很多,但无法解决。 感谢您的帮助

解决方法

这是完美的答案 它在做什么

  1. 查找类为div的所有even元素
  2. 如果div的子级为a,并且a的属性为href,则创建新的div列表。
  3. 打印href属性
divs = soup.find_all("div",class_="even")
a = [i.find("a") for i in divs if i.find("a") and i.find("a").has_attr("href")]
print(a[0]['href'])
>>> http://www.corporate.danone.it