如何使用pdf_tools包pdf_data函数生成的坐标？

问题描述

我正在尝试使用pdftools包从以下pdf中提取数据表： https://www1.nyc.gov/assets/nycha/downloads/pdf/Address-Guide-04-23-2020.pdf

如果可能的话，我想避免使用制表剂解决方案。

使用pdf_data函数，我可以生成代表pdf每页的小标题列表，但是在此之后，我很困惑如何使用坐标进行操作：

nycha2 <- pdf_data(pdf_file)

   width height     x     y space text       
   <int>  <int> <int> <int> <lgl> <chr>      
 1    31     14    39    18 TRUE  NYCHA      
 2    47     14    73    18 TRUE  PROPERTY   
 3    52     14   123    18 FALSE DIRECTORY  
 4    43     14    39    33 TRUE  ADDRESS    
 5    28     14    85    33 FALSE GUIDE      
 6    38      8    61    48 FALSE ADDRESS    
 7    31     14   540    18 FALSE broNX      
 8    60      8   217    48 FALSE DEVELOPMENT
 9    35      8   123    49 FALSE ZIPCODE    
10    40      8   358    48 TRUE  MANAGED    
# ... with 733 more rows

此post中提供的解决方案使我与之接近，但并非一直如此。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）