使用BeautifulSoup获得与扩展名匹配的文件名

问题描述

| 我正在尝试使用带有文本文件的扩展名ѭ0来解析HTML页面。我想解析HTML,并获取
.txt
结尾的字符串。 所有这些字符串都在
<a href>
标记内,下面是一些示例:
<a href = \"foo.txt\">
<a href = \"bar.txt\">
我如何得到
foo.txt
bar.txt
。 我这样做:
>>> links = soup.findAll(\'a\')
但是我找不到如何提取完整的字符串...有什么建议吗?     

解决方法

        BeautifulSoup接受正则表达式作为参数形式
find()
findAll()
这应该工作:
links = soup.findAll(href=re.compile(\"\\.txt$\"))