如何使用python从文件夹中的pdf文件中提取文本并将它们保存在数据框中？

问题描述

我有很多文件夹，每个文件夹都有几个 pdf 文件（还有其他文件类型，如 .xlsx 或 .doc）。我的目标是提取每个文件夹的 pdf 文本并创建一个数据框，其中每条记录都是“文件夹名称”，每列代表该文件夹中每个 pdf 文件的文本内容以字符串形式。

我设法使用 tika 包（下面的代码）从一个 pdf 文件中提取文本。但不能循环迭代文件夹或其他文件夹中的其他pdf以构建结构化数据框。

# import parser object from tike 
from tika import parser   
  
# opening pdf file 
parsed_pdf = parser.from_file("ducument_1.pdf") 
  
# saving content of pdf 
# you can also bring text only,by parsed_pdf['text']  
# parsed_pdf['content'] returns string  
data = parsed_pdf['content']  
  
# Printing of content  
print(data) 
  
# <class 'str'> 
print(type(data))

所需的输出应如下所示：

文件夹名称	pdf1	pdf2
17534	pdf1 的文本	pdf 2 的文本
63546	pdf1 的文本	pdf1 的文本
26374	pdf1 的文本	-

解决方法

如果要查找目录及其子目录中的所有 PDF，可以使用 os.listdir 和 glob，请参阅 Recursive sub folder search and return files in a list python。我选择了一个稍微长一点的表格，这样初学者更容易了解正在发生的事情

然后，对于每个文件，调用Apache Tika，并保存到Pandas DataFrame中的下一行

#!/usr/bin/python3

import os,glob
from tika import parser 
from pandas import DataFrame

# What file extension to find,and where to look from
ext = "*.pdf"
PATH = "."

# Find all the files with that extension
files = []
for dirpath,dirnames,filenames in os.walk(PATH):
    files += glob.glob(os.path.join(dirpath,ext))

# Create a Pandas Dataframe to hold the filenames and the text
df = DataFrame(columns=("filename","text"))

# Process each file in turn,parsing with Tika and storing in the dataframe
for idx,filename in enumerate(files):
   data = parser.from_file(filename)
   text = data["content"]
   df.loc[idx] = [filename,text]

# For debugging,print what we found
print(df)

在 unix 上拥有所有 pdf 的列表非常容易。

import os

# saves all pdf in a string.
a = os.popen("du -a|awk '{print $2}'|grep '.*\.pdf$'").read()[2:-1]
print(a)

在我的电脑上，输出是：

[luca@artix tmp]$ python3 forum.py
a.pdf
./foo/test.pdf

你可以做类似的事情

for line in a.split('\n'):
    print(line,line.split('/'))

你就会知道pdf的文件夹。希望对你有帮助

apache-tika dataframe pdf pdf-conversion python