Scrapy,从 H3 标签中获取 href 吗?

问题描述

目前正在尝试从以下 HTML 片段中抓取链接标题,尽管阅读了一段时间的抓取文档,但似乎无法找到任何方法

<h3 class="data"> 
  <a href="example.com" title="uniqueTitle"></a>
</h3>

这样做的最佳方法是什么?另外我应该注意到,页面上有许多 <h3> 元素具有相同的类,但我想抓取不同的 <a> 标签
提前致谢!

解决方法

要获取 h3 标签内的所有网址,您可以使用例如

from scrapy import Selector
sel = Selector(text='''<h3 class="data"> 
  <a href="example.com" title="uniqueTitle"></a>
</h3>''')
print(sel.css('h3.data > a::attr(href)').extract()) # you can use this

输出:

['example.com']