如何解析PDF文件以提取目录的元数据和相应的页码

编程问答 2022-08-15

问题描述

我有许多PDF文件，其中包含适当的“目录”（TOC）。我的意思是，PDF文件是用嵌入的TOC构造的。章节标题在PDF阅读器中显示为左侧导航。 PDF阅读器（例如Acrobat和Apple的Preview工具）认可TOC。在左侧导航栏中，章节标题被超链接到它们所引用的页面。页码不显示。

有关示例，请参见所附的屏幕截图。

仅需澄清-目录也是文档中的实际页面。页码和超链接都不会显示在该页面上。

我需要以编程方式从数千个文件中提取这些章节标题和相应的页码。我更愿意在Python中执行此操作，但此时我会采取任何措施。

有什么建议吗？我看过很多Unix和python PDF库，但是找不到任何专门处理TOC的东西。

谢谢！标记

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

acrobat extract pdf python