将PDF文件拆分为段落-后续操作

问题描述

我正在写信给我发现的一个 here跟踪问题。

我和原始海报的需求完全相同，但是似乎无法找到适合我的答案。

Radan提供的答案包含以下代码：

import re
import textract
#read the content of pdf as text
text = textract.process('file_name.pdf')
#use four space as paragraph delimiter to convert the text into list of paragraphs.
print re.split('\s{4,}',text)

我通过pip install下载了textract，因为无法进行conda安装（即使我指定了伪造也找不到软件包）。

我得到的错误代码是一个语法错误，我认为这可能是“打印”中缺少括号的原因，当我添加它们时，又给了我另一个错误“ FileNotFound”。但是，我正在使用的文件与工作目录位于同一文件夹中，并且我还尝试提供完整的路径名。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdf-extraction