如何使用pdf_tools包pdf_data函数生成的坐标?

问题描述

我正在尝试使用pdftools包从以下pdf中提取数据表: https://www1.nyc.gov/assets/nycha/downloads/pdf/Address-Guide-04-23-2020.pdf

如果可能的话,我想避免使用制表剂解决方案。

使用pdf_data函数,我可以生成代表pdf每页的小标题列表,但是在此之后,我很困惑如何使用坐标进行操作:

nycha2 <- pdf_data(pdf_file)

   width height     x     y space text       
   <int>  <int> <int> <int> <lgl> <chr>      
 1    31     14    39    18 TRUE  NYCHA      
 2    47     14    73    18 TRUE  PROPERTY   
 3    52     14   123    18 FALSE DIRECTORY  
 4    43     14    39    33 TRUE  ADDRESS    
 5    28     14    85    33 FALSE GUIDE      
 6    38      8    61    48 FALSE ADDRESS    
 7    31     14   540    18 FALSE BRONX      
 8    60      8   217    48 FALSE DEVELOPMENT
 9    35      8   123    49 FALSE ZIPCODE    
10    40      8   358    48 TRUE  MANAGED    
# ... with 733 more rows 

post中提供的解决方案使我与之接近,但并非一直如此。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...