从Python中的URL读取PDF中的表格信息

问题描述

我正在尝试从URL中读取每周的用餐计划(PDF格式),我想知道是否有人可以给我一些提示。目的是编写一个脚本,该脚本每周获取一次膳食计划,从而允许我提供当前日期,以获取我的食堂提供的非素食和素食膳食。 An example of the weekly menu may be found here

到目前为止,我设法使URL生成器正常工作,该生成器将生成正确的字符串以供解析器正常工作。我现在坚持编写合适的解析器。我尝试过的一个示例是使用tabula-py,但似乎无法将其正确解析为数据框。到目前为止,我使用的行是:

menu_df = tabula.read_pdf(menu_URL,pages=1)

但是,解析器似乎无法分辨分隔符在哪里。

我尝试过的替代方法包括使用pdfminer.six。尽管下面的代码片段确实返回了(非常漂亮地)我已下载的表的内容,但是我无法将它们分类为可以使用它们的日期,并且仅当我将每周菜单下载到本地时它们才起作用驾驶。代码段如下:

from io import BytesIO as StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp

def parse_menu(menu_path):

    output_string = StringIO()

    with open(menu_path,'rb') as fin:
        extract_text_to_fp(fin,output_string,laparams=LAParams(),output_type='html',codec=None)

    return output_string

到目前为止,这两种方法都不尽人意,我想知道是否有比我更有经验的人对如何解决这个问题有想法?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)