处理编码 - 使用 Python 抓取网页

问题描述

我尝试使用 python 解析网页中的一些 href。为此,我使用了以下代码,该代码执行得很好,但返回的 href 没有正确处理重音。我尝试了不同的方法,但它们不起作用。

这是我的代码:

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    print (code)
    f.write(code + "\n")

例如我有这个:“http//ww.blabla//Cl%C3%A9ment”
而不是这个:“http//ww.blabla//Clément”

解决方法

感谢 Mohsan Ali,

感谢您的链接,我找到了答案。这是它的工作原理:

links = browser.find_elements_by_xpath(path)
for link in links:
    code = link.get_attribute("href")
    code = urllib.parse.unquote(code)
    print (code)
    f.write(code + "\n")

我使用的是 Python 3,所以使用:

import urllib.parse
urllib.parse.unquote(url)

工作正常!

非常感谢您的快速帮助。

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...