问题描述
我和原始海报的需求完全相同,但是似乎无法找到适合我的答案。
Radan提供的答案包含以下代码:
import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)
我通过pip install下载了textract,因为无法进行conda安装(即使我指定了伪造也找不到软件包)。
我得到的错误代码是一个语法错误,我认为这可能是“打印”中缺少括号的原因,当我添加它们时,又给了我另一个错误“ FileNotFound”。但是,我正在使用的文件与工作目录位于同一文件夹中,并且我还尝试提供完整的路径名。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)