问题描述
首先,谢谢您的帮助。我想知道是否有一种方法可以从pdf可编辑文件中提取分配在所有页面中同一位置的特定数据。
file(经过修改以符合隐私保护原则)包含一系列工资单,所有页面均包含相同的格式和数据。我只想提取每个员工的SSN(No. IMSS)并将其放在数据框中。我已经搜索了如何执行此操作,但是我仅发现数据结构不正确且由于该文件中的所有页面都完全相等的情况,所以我想知道是否有一种不太麻烦的方法。
使用pdf工具和下面的步骤,我可以隔离想要的数据(分配给第9行),但仅从individual页中隔离。我想知道是否可以输入适用于所有页面的命令。谢谢。
a2
解决方法
这是一个文本分析任务,有几种方法可以完成。最快的方法也许是在每个No. IMSS:
处分割输出,选择第二个片段,在换行符处分割结果,然后取第一个片段。该代码不是很漂亮,但是可以正常工作:
sapply(strsplit(sapply(strsplit(pdftools::pdf_text("pruebas.pdf"),"No\\. IMSS: +"),`[`,2),"\r"),1)
#> [1] "12-34-56-7895-5" "12-34-56-7895-9" "12-34-56-7895-7" "12-34-56-7895-1"