如何解析PDF文件以提取目录的元数据和相应的页码

问题描述

我有许多PDF文件,其中包含适当的“目录”(TOC)。我的意思是,PDF文件是用嵌入的TOC构造的。章节标题在PDF阅读器中显示为左侧导航。 PDF阅读器(例如Acrobat和Apple的Preview工具)认可TOC。在左侧导航栏中,章节标题被超链接到它们所引用的页面页码不显示

有关示例,请参见所附的屏幕截图。

仅需澄清-目录也是文档中的实际页面页码和超链接都不会显示在该页面上。

我需要以编程方式从数千个文件提取这些章节标题和相应的页码。我更愿意在Python中执行此操作,但此时我会采取任何措施。

有什么建议吗?我看过很多Unix和python PDF库,但是找不到任何专门处理TOC的东西。

谢谢! 标记

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)