如何在python笔记本中使用BeautfulSoup在网站页面内抓取特定的url

问题描述

我正在抓捕一个用于教育学习目的的网站。 我的问题是如何在网站的特定页面内抓取网址链接。 示例:see this link 它在图片下方包含一个网址。 那就是我的观点,要抓住每一页的链接。 我尝试了这个,但是没有用: Websitelist=soup.find_all('div',class_='field-item even') itemz='field-item even' for tmp in Websitelist: for link in tmp.find_all('a',href=True): print(Websitelist)

我附上了它的inspect元素代码的样本图片。 image 注意:类名不是特定的,这意味着它在inspect元素代码中多次使用。 我在互联网上尝试了很多,但无法解决。 感谢您的帮助

解决方法

这是完美的答案 它在做什么

  1. 查找类为div的所有even元素
  2. 如果div的子级为a,并且a的属性为href,则创建新的div列表。
  3. 打印href属性
divs = soup.find_all("div",class_="even")
a = [i.find("a") for i in divs if i.find("a") and i.find("a").has_attr("href")]
print(a[0]['href'])
>>> http://www.corporate.danone.it

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...