如何有效地从R中的PDF提取表格数据？

编程问答 2022-08-12

问题描述

我想使用R从数千个PDF文档中有效地提取表格数据。我通常将PDF数据转换为文本字符串，然后按位置提取信息，但是这些特定的表通常缺少数据，如以下示例所示。丢失数据的位置在文档之间有所不同。谁能建议一种这样做的方法？

PDF类型的示例

解决方法

我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格在PDF的第10-16页上：

您应该能够使用tabulizer包从所述页面提取数据：

tab <- tabulizer::extract_tables(file = "path/file.pdf",pages = 10:16)
如果只需要文本，则应使用pdftools，它要快得多：

text <- pdftools::pdf_text("path/file.pdf")[10:16]

pdf pdf r tabular

相关问答

导入项目后报错问题

依赖报错 idea导入项目后依赖报错，解决方案：https://blog....

idea不能识别yaml文件

使用mybatis plus常见错误

错误1：代码生成器依赖和mybatis依赖冲突启动项目时报错如下...

gradle常见问题与错误

错误1：gradle项目控制台输出为乱码 # 解决方案：https://bl...

Mybatis Plus传入参数0不起作用

错误还原：在查询的过程中，传入的workType为0时，该条件不起...

linux中make编译源码包失败

报错如下，gcc版本太低 ^ server.c:5346:31: 错误：‘struct...