无边界pdf提取到json对于Python camelot库无法正常工作

问题描述

谁能给我快速解答/帮助 由于我们在使用python camelot将pdf提取到json后面临一些问题,因此未提供确切的内容提取后缺少某些内容

解决方法

我尝试了以下代码:

import camelot

pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path,flavor='stream')

enter image description here

这里有两个问题:

  • 标题字体无法正确读取,因此您会发现奇怪的字符,例如(cid:71) ...
  • 使用flavor='lattice',未检测到该表。使用flavor='stream',可以检测到表格,但不能正确检测到单元格。

目前,我认为Camelot无法正确提取此表。 他们正在努力解决第二个问题(请参见thisthis)。