pdfQuery 结果数据的面向对象数据结构是什么？

问题描述

我目前正在用 python 构建一个程序来抓取和解析 pdf，希望比目前可用的更优雅。

python中pdfquery输出的数据结构层次是：（希望这是有道理的）

PDFDocument
    pdfpage[1]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    pdfpage[2]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFEleement[i]
    ....
    pdfpage[i]
        PDFElement[1]
        PDFElement[2]
        ...
        PDFElement[i]

我想创建一个 OO python 数据结构，它设置了上面的层次结构。将 pdfElement 类对象 [s] 作为 pdfpage 类对象 [s] 的属性嵌入，这些对象作为 pdfDocument 元素的属性嵌入。

这必须在创建类时迭代完成。我想知道这是否是构建数据的最佳方式，还是我最好做其他事情？如果我有几百页，每页可能有 30-50 个元素，我也有兴趣知道它可能有多“昂贵”。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

pdf pdf pdf pdfpage python