如何正确解析/解码此字节内容以获得它在 pyhon 中的等效字符串?

问题描述

阅读一些数据后,我遇到了一个孤立的案例(在我的上下文中),其中数据没有预期的格式。

从电子邮件.msg 文件)中读取数据:

msg = extract_msg.Message(file)

print(msg.body.encode("utf-8"))
print(msg.body)

这个脚本的输出如下:

b'Bonjour,\r \r \r Je vous invite \xc3\xa0 prendre connaissance des pi\xc3\xa8ces jointes relatives \xc3\xa0 votre dossier r\xc3\xa9f\xc3\xa9renc\xc3\xa9 ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste \xc3\xa0 votre disposition pour tout renseignement compl\xc3\xa9mentaire.\r \r \r Cordialement,\r \r \r name\r othername'
 othername.partofnamehaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.

如您所见,有几个十六进制字符以及许多回车符。此外,原始正文字符串与 utf-8 编码版本的输出完全不匹配。

最后,在第二行的开头,注意它包含了第二行结尾的(乱七八糟的)部分。

我需要以字符串形式检索第一行的内容,并带有预期的重音符号,例如:

Bonjour,\r \r \r Je vous invite à prendre connaissance des piéces jointes relatives à votre dossier référencé ci-dessus.\r \r Je vous en souhaite une bonne lecture et reste à votre disposition pour tout renseignement complémentaire.\r \r \r Cordialement,\r \r \r name\r othername

我怎样才能做到这一点?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)