问题描述
如何从Microsoft Word 97 -2003文档文件(简称“ .doc”文件)中读取数据。我尝试了各种技术来读取数据。
data = contents.decode('ascii')
错误:UnicodeDecodeError:'ascii'编解码器无法解码位置0的字节0xd0:序数不在范围(128)中
with open(path,'r',encoding="cp1254") as f:
data = f.read()
print(data)
错误:“字符映射”编解码器无法解码位置540处的字节0x90:字符映射到
with open(path,encoding="UTF8") as f:
data = f.read()
print(data)
错误:“ utf-8”编解码器无法解码位置0的字节0xd0:无效的连续字节
word = win32com.client.dispatch("Word.Application")
wb = word.Documents.Open(path)
doc = word.ActiveDocument
错误:“抱歉,我们找不到您的文件。它是移动,重命名还是删除了?”
soup = bs(open(path).read())
[s.extract() for s in soup(['style','script'])]
tmpText = soup.get_text()
text = "".join("".join(tmpText.split('\t')).split('\n')).encode('Windows-1254').strip()
print(text)
错误“ charmap”编解码器无法解码位置540上的字节0x90:字符映射到
我的编码是“ Windows-1254”,这就是我获得编码格式的方式
_encoding = chardet.detect(data).get('encoding')
输出“ 00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00 \ xff \ xff \ xff \ xff \ x00 \ x00 \ x00 \ x00A \ x9a \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ xf8)\ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x82 \ x10 \ x00 \ x00X \ x0c \ x00 \ x00 \ xda \ x1c \ x00 \ x00:\ x01 \ x00 \ x00 \ x05 \ x00 \ x12 \ x01 \ x00 \ x00 \ t \ x04 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 \ x00 rahaf为\ x07 \ x07Skill Set \ x07HTML 5,CSS 3,JQuery,JavaScript,自适应网站,Angular Js \ x07 \ x07Operating System \ x07Windows,C \ x07 \ x07Tools \ x07Adobe Photoshop CS5,Notepad ++,Adobe Dreamweaver,Team站点,IBM Clear Case和Clear Quest \ x07 \ x07 \ x07 \ x07 \ x07 \ r \ r \ r \ r \ t \ r \ r \ r \ r \ rBrain Tree Conultant人力资源私人有限公司-\ r客户:L&T \ r \ r配置文件:软件工程师\ r全职参与时间:从2018年12月12日到2020年1月21日\ r \ r通过xf2Y \ xc8 \ x00担任华为客户的软件工程师\ x16h i \ xad \ x000J \ x11 \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x00 / \ x02 \ x08 \ x81 \ x81 \ x03j \ x86 \ x00 \ x00 \ x00 \ x06 \ x08 \ x01 \ x15h \ xf2Y \ xc8 \ x00 \ x16h i \ xad \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00U \ x08 \ x01 \ x01 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x15h \ xf2Y \ xc8 \ x00 \ x16h i \ xad \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x00)\ x03j \ x00 \ x00 \ x00 \ x00 \ x15h \ xf2Y \ xc8 \ x00 \ x16h i \ xad \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00U \ x08 \ x01 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x06 \ x16h%f \ x06 \ x00 \ x00 \ x15h \ xf2Y \ xc8 \ x00 \ x16h \ xaf?“ \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x00#\ x15h \ xf2Y \ xc8 \ x00 \ x16h8 \ x11J \ x005 \ x08 \ x81CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00#x15h \ xf2Y \ xc8 \ x00 \ x16h \ xbc%\ xea \ x005 \ x08 \ x81CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00#x15h \ xf2Y \ xc8 \ x00 \ x16h%4 \ xa6 \ x005 \ x08 \ x81CJ \ x1 4 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x15h \ xf2Y \ xc8 \ x00 \ x16h8 \ x11J \ x00CJ \ x14 \ x00OJ \ x02 \ x00QJ \ x02 \ x00 ^ J \ x02 \ x00aJ \ x14 \ x00 \ x00
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)