问题描述
谁能给我快速解答/帮助
由于我们在使用python camelot将pdf提取到json后面临一些问题,因此未提供确切的内容。提取后缺少某些内容。
解决方法
我尝试了以下代码:
import camelot
pdf_path = '/YOUR/FILEPATH.pdf'
tables = camelot.read_pdf(pdf_path,flavor='stream')
这里有两个问题:
- 标题字体无法正确读取,因此您会发现奇怪的字符,例如
(cid:71)
...
- 使用
flavor='lattice'
,未检测到该表。使用flavor='stream'
,可以检测到表格,但不能正确检测到单元格。
目前,我认为Camelot无法正确提取此表。
他们正在努力解决第二个问题(请参见this和this)。