处理编码 - 使用 Python 抓取网页

问题描述

我尝试使用 python 解析网页中的一些 href。为此,我使用了以下代码,该代码执行得很好,但返回的 href 没有正确处理重音。我尝试了不同的方法,但它们不起作用。

这是我的代码

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    print (code)
    f.write(code + "\n")

例如我有这个:“http//ww.blabla//Cl%C3%A9ment”
而不是这个:“http//ww.blabla//Clément”

解决方法

感谢 Mohsan Ali,

感谢您的链接,我找到了答案。这是它的工作原理:

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    code = urllib.parse.unquote(code)
    print (code)
    f.write(code + "\n")

我使用的是 Python 3,所以使用:

import urllib.parse
urllib.parse.unquote(url)

工作正常!

非常感谢您的快速帮助。