问题描述
我尝试使用 python 解析网页中的一些 href。为此,我使用了以下代码,该代码执行得很好,但返回的 href 没有正确处理重音。我尝试了不同的方法,但它们不起作用。
这是我的代码:
links = browser.find_elements_by_xpath(path)
for link in links:
code = link.get_attribute("href")
print (code)
f.write(code + "\n")
例如我有这个:“http//ww.blabla//Cl%C3%A9ment”
而不是这个:“http//ww.blabla//Clément”
解决方法
感谢 Mohsan Ali,
感谢您的链接,我找到了答案。这是它的工作原理:
links = browser.find_elements_by_xpath(path)
for link in links:
code = link.get_attribute("href")
code = urllib.parse.unquote(code)
print (code)
f.write(code + "\n")
我使用的是 Python 3,所以使用:
import urllib.parse
urllib.parse.unquote(url)
工作正常!
非常感谢您的快速帮助。