问题描述
我正在尝试从 PDF 列表中提取所有文本,但在从对象中提取文本时遇到错误。知道是什么原因造成的吗?
ls = os.listdir(resumes)
pdf = [s for s in ls if '.pdf' in s]
print(pdf)
for p in pdf:
pdfFileObj = open(os.path.join(resumes,p),'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.numPages)
pageObj = pdfReader.getPage(0)
print(pageObj.extractText())
pdfFileObj.close()
错误:
File "C:\Program Files\Python39\lib\encodings\cp1252.py",line 19,in encode
return codecs.charmap_encode(input,self.errors,encoding_table)[0]
UnicodeEncodeError: 'charmap' codec can't encode character '\u0141' in position 305: character maps to <undefined>
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)