将PDF文件拆分为段落-后续操作

问题描述

我正在写信给我发现的一个here跟踪问题。

我和原始海报的需求完全相同,但是似乎无法找到适合我的答案。

Radan提供的答案包含以下代码

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

我通过pip install下载了textract,因为无法进行conda安装(即使我指定了伪造也找不到软件包)。

我得到的错误代码一个语法错误,我认为这可能是“打印”中缺少括号的原因,当我添加它们时,又给了我另一个错误“ FileNotFound”。但是,我正在使用的文件与工作目录位于同一文件夹中,并且我还尝试提供完整的路径名。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)