Python PDFMiner 搜索关键字返回文本到 csv

问题描述

我正在尝试使用 PDFminer 或任何 PDF 提取工具从 PDF 中提取文本。

我想实现:我搜索一个关键字“银行”,它返回银行名称或表格中的整行

PDF 格式如

bank,(sth,sth)|is|A,(B,C)

我试过了:

import io
from pdfminer.converter import TextConverter
from pdfminer.pdfinterp import pdfpageInterpreter
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfpage import pdfpage
def extract_text_by_page(pdf_path):
    with open(pdf_path,'rb') as fh:
        for page in pdfpage.get_pages(fh,caching=True,check_extractable=True):
            resource_manager = PDFResourceManager()
            fake_file_handle = io.StringIO()
            converter = TextConverter(resource_manager,fake_file_handle)
            page_interpreter = pdfpageInterpreter(resource_manager,converter)
            page_interpreter.process_page(page)
            
            text = fake_file_handle.getvalue()
            yield text
    
            # close open handles
            converter.close()
            fake_file_handle.close()
    
def extract_text(pdf_path):
    for page in extract_text_by_page(pdf_path):
        print(page)
        print()
        
if __name__ == '__main__':
    print(extract_text('test.pdf'))

它目前返回表格,但我只想要银行:A 的确切行,

任何帮助将不胜感激!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)