问题描述
目前正在尝试从以下 HTML 片段中抓取链接和标题,尽管阅读了一段时间的抓取文档,但似乎无法找到任何方法。
<h3 class="data">
<a href="example.com" title="uniqueTitle"></a>
</h3>
这样做的最佳方法是什么?另外我应该注意到,页面上有许多 <h3>
元素具有相同的类,但我想抓取不同的 <a>
标签。
提前致谢!
解决方法
要获取 h3
标签内的所有网址,您可以使用例如
from scrapy import Selector
sel = Selector(text='''<h3 class="data">
<a href="example.com" title="uniqueTitle"></a>
</h3>''')
print(sel.css('h3.data > a::attr(href)').extract()) # you can use this
输出:
['example.com']