使用 fontsize 计算文本长度npm - pdf2json 库

问题描述

我正在使用 pdf2json library 来解析 pdf。

它以 json 格式返回解析后的数据,我附上了一些示例数据。

需要注意的主要变量是

高度 - 以 PAGE_UNITS 为单位的 pdf 高度

Width - 以 PAGE_UNITS 为单位的 pdf 宽度

sw - (字体的空格宽度)在 pd2json 库的 README.md 中定义

索引 1 处的 TS - pt 中的字体大小

w - 我的困惑发生在哪里。 W 应该代表文本行的宽度。但是,我的文本行的宽度大于页面的宽度,这没有任何意义。

我需要获取文本的长度。 我试过做(文本中的字符数 * sw)/pagewidth 来获得线相对于 pdf.Tp 测试的比率然后我在我的前端使用这个比率来绘制相同 pdf 的图像具体线路。

但这似乎没有给我正确的线长。通常它太短了。

如果有人可以帮忙,那将不胜感激。我一直在研究 pd2json 问题,寻找类似的东西,但是没有答案,而且库似乎也没有得到很好的支持

"Pages": [
  {
    "Height": 49.5,"HLines": [],"VLines": [],"Fills": [
      {
        "x": 0,"y": 0,"w": 0,"h": 0,"clr": 1
      },{
        "x": 9.001,"y": 19.271,"w": 5.372,"h": 0.038,"clr": 35
      }
    ],"Texts": [
      {
        "x": 4.252,"y": 45.981,"w": 96.648,"sw": 0.32553125,"clr": 0,"A": "left","R": [
          {
            "T": "Hello%20World%20","S": -1,"TS": [
              0,15,0
            ]
          }
        ]
      },"Width": 38.25
...

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)