问题描述
我想使用R从数千个PDF文档中有效地提取表格数据。我通常将PDF数据转换为文本字符串,然后按位置提取信息,但是这些特定的表通常缺少数据,如以下示例所示。丢失数据的位置在文档之间有所不同。谁能建议一种这样做的方法?
PDF类型的示例
解决方法
我为此使用了两个软件包。哪个更好取决于您到底需要做什么。假设您的表格在PDF的第10-16页上:
-
您应该能够使用
tabulizer
包从所述页面提取数据:tab <- tabulizer::extract_tables(file = "path/file.pdf",pages = 10:16)
-
如果只需要文本,则应使用
pdftools
,它要快得多:text <- pdftools::pdf_text("path/file.pdf")[10:16]