从Python中的URL读取PDF中的表格信息

问题描述

我正在尝试从URL中读取每周的用餐计划（PDF格式），我想知道是否有人可以给我一些提示。目的是编写一个脚本，该脚本每周获取一次膳食计划，从而允许我提供当前日期，以获取我的食堂提供的非素食和素食膳食。 An example of the weekly menu may be found here。

到目前为止，我设法使URL生成器正常工作，该生成器将生成正确的字符串以供解析器正常工作。我现在坚持编写合适的解析器。我尝试过的一个示例是使用tabula-py，但似乎无法将其正确解析为数据框。到目前为止，我使用的行是：

menu_df = tabula.read_pdf(menu_URL,pages=1)

但是，解析器似乎无法分辨分隔符在哪里。

我尝试过的替代方法包括使用pdfminer.six。尽管下面的代码片段确实返回了（非常漂亮地）我已下载的表的内容，但是我无法将它们分类为可以使用它们的日期，并且仅当我将每周菜单下载到本地时它们才起作用驾驶。代码段如下：

from io import BytesIO as StringIO
from pdfminer.layout import LAParams
from pdfminer.high_level import extract_text_to_fp

def parse_menu(menu_path):

    output_string = StringIO()

    with open(menu_path,'rb') as fin:
        extract_text_to_fp(fin,output_string,laparams=LAParams(),output_type='html',codec=None)

    return output_string

到目前为止，这两种方法都不尽人意，我想知道是否有比我更有经验的人对如何解决这个问题有想法？

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdfminer python-3.x tabula-py urllib