如何有效地从R中的PDF提取表格数据?

问题描述

我想使用R从数千个PDF文档中有效地提取表格数据。我通常将PDF数据转换为文本字符串,然后按位置提取信息,但是这些特定的表通常缺少数据,如以下示例所示。丢失数据的位置在文档之间有所不同。谁能建议一种这样做的方法?

PDF类型的示例

1

解决方法

我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格在PDF的第10-16页上:

  1. 您应该能够使用tabulizer包从所述页面提取数据:

    tab <- tabulizer::extract_tables(file = "path/file.pdf",pages = 10:16)

  2. 如果只需要文本,则应使用pdftools,它要快得多:

    text <- pdftools::pdf_text("path/file.pdf")[10:16]

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...