处理编码 - 使用 Python 抓取网页

问题描述

我尝试使用 python 解析网页中的一些 href。为此，我使用了以下代码，该代码执行得很好，但返回的 href 没有正确处理重音。我尝试了不同的方法，但它们不起作用。

这是我的代码：

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    print (code)
    f.write(code + "\n")

例如我有这个：“http//ww.blabla//Cl%C3%A9ment”
而不是这个：“http//ww.blabla//Clément”

解决方法

感谢 Mohsan Ali，

感谢您的链接，我找到了答案。这是它的工作原理：

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    code = urllib.parse.unquote(code)
    print (code)
    f.write(code + "\n")

我使用的是 Python 3，所以使用：

import urllib.parse
urllib.parse.unquote(url)

工作正常！

非常感谢您的快速帮助。

diacritics encoding python web-scraping