使用Javascript查找PDF中的结构元素

问题描述

我在一个试图解决PDF可访问性的项目中。我想在PDF的structroottree中的每个元素周围创建一个边框。因此,我需要一种将PDF中的元素链接标签树中的元素的方法

有没有办法...

a)在属于StructElem的PDF中找到元素(位置,宽度,高度)吗? (StructElem-> PDF元素)

b)找到PDF中的所有元素,然后找到周围的StructElem? (PDF元素->结构元素)

我已经可以使用PDFassemlber库读取StructureTree。我可以看到元素属于哪个页面,但是看不到哪个元素。这显示structroottree的所有叶子:

Struct-Tree using pdf assembler

我还可以使用PDF.js阅读文本内容。但是我似乎找不到如何将它们与Struct Elements对齐的方法

text contents using pdf.js

我知道一个叶子StructElem包含一个整数(在['/ K']中包含PDF周围元素的MCID。但是要找到它,我需要解析页面内容流。麻烦且容易出错。是否有API可以简化这一过程?

任何帮助表示赞赏:)

我使用了this PDF

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)