pdfQuery 结果数据的面向对象数据结构是什么?

问题描述

我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。

python中pdfquery输出的数据结构层次是: (希望这是有道理的)

PDFDocument
    pdfpage[1]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    pdfpage[2]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    ....
    pdfpage[i]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFElement[i]

我想创建一个 OO python 数据结构,它设置了上面的层次结构。将 pdfElement 类对象 [s] 作为 pdfpage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。

这必须在创建类时迭代完成。我想知道这是否是构建数据的最佳方式,还是我最好做其他事情?如果我有几百页,每页可能有 30-50 个元素,我也有兴趣知道它可能有多“昂贵”。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)