问题描述
我正在使用 pdf2json library 来解析 pdf。
它以 json 格式返回解析后的数据,我附上了一些示例数据。
需要注意的主要变量是
高度 - 以 PAGE_UNITS 为单位的 pdf 高度
Width - 以 PAGE_UNITS 为单位的 pdf 宽度
sw - (字体的空格宽度)在 pd2json 库的 README.md 中定义
索引 1 处的 TS - pt 中的字体大小
w - 我的困惑发生在哪里。 W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。
我需要获取文本的长度。 我试过做(文本中的字符数 * sw)/pagewidth 来获得线相对于 pdf.Tp 测试的比率然后我在我的前端使用这个比率来绘制相同 pdf 的图像具体线路。
但这似乎没有给我正确的线长。通常它太短了。
如果有人可以帮忙,那将不胜感激。我一直在研究 pd2json 问题,寻找类似的东西,但是没有答案,而且库似乎也没有得到很好的支持。
"Pages": [
{
"Height": 49.5,"HLines": [],"VLines": [],"Fills": [
{
"x": 0,"y": 0,"w": 0,"h": 0,"clr": 1
},{
"x": 9.001,"y": 19.271,"w": 5.372,"h": 0.038,"clr": 35
}
],"Texts": [
{
"x": 4.252,"y": 45.981,"w": 96.648,"sw": 0.32553125,"clr": 0,"A": "left","R": [
{
"T": "Hello%20World%20","S": -1,"TS": [
0,15,0
]
}
]
},"Width": 38.25
...
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)