使用BeautifulSoup获得与扩展名匹配的文件名

问题描述

| 我正在尝试使用带有文本文件的扩展名ѭ0来解析HTML页面。我想解析HTML，并获取以.txt结尾的字符串。所有这些字符串都在<a href>标记内，下面是一些示例： <a href = \"foo.txt\"> <a href = \"bar.txt\"> 我如何得到foo.txt和bar.txt。我这样做： >>> links = soup.findAll(\'a\') 但是我找不到如何提取完整的字符串...有什么建议吗？

解决方法

BeautifulSoup接受正则表达式作为参数形式find()和findAll() 这应该工作：

links = soup.findAll(href=re.compile(\"\\.txt$\"))

beautifulsoup 使用使用使用匹配扩展名扩展名文件名文件名获得