问题描述
我目前正在用 python 构建一个程序来抓取和解析 pdf,希望比目前可用的更优雅。
python中pdfquery输出的数据结构层次是: (希望这是有道理的)
PDFDocument
pdfpage[1]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
pdfpage[2]
PDFElement[1]
PDFElement[2]
...
PDFEleement[i]
....
pdfpage[i]
PDFElement[1]
PDFElement[2]
...
PDFElement[i]
我想创建一个 OO python 数据结构,它设置了上面的层次结构。将 pdfElement 类对象 [s] 作为 pdfpage 类对象 [s] 的属性嵌入,这些对象作为 pdfDocument 元素的属性嵌入。
这必须在创建类时迭代完成。我想知道这是否是构建数据的最佳方式,还是我最好做其他事情?如果我有几百页,每页可能有 30-50 个元素,我也有兴趣知道它可能有多“昂贵”。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)