如何解析PDF文件以提取目录的元数据和相应的页码

问题描述

我有许多PDF文件,其中包含适当的“目录”(TOC)。我的意思是,PDF文件是用嵌入的TOC构造的。章节标题在PDF阅读器中显示为左侧导航。 PDF阅读器(例如Acrobat和Apple的Preview工具)认可TOC。在左侧导航栏中,章节标题被超链接到它们所引用的页面。页码不显示。

有关示例,请参见所附的屏幕截图。

仅需澄清-目录也是文档中的实际页面。页码和超链接都不会显示在该页面上。

我需要以编程方式从数千个文件中提取这些章节标题和相应的页码。我更愿意在Python中执行此操作,但此时我会采取任何措施。

有什么建议吗?我看过很多Unix和python PDF库,但是找不到任何专门处理TOC的东西。

谢谢! 标记

enter image description here

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...