问题描述
我正在尝试使用pdftools包从以下pdf中提取数据表: https://www1.nyc.gov/assets/nycha/downloads/pdf/Address-Guide-04-23-2020.pdf
如果可能的话,我想避免使用制表剂解决方案。
使用pdf_data函数,我可以生成代表pdf每页的小标题列表,但是在此之后,我很困惑如何使用坐标进行操作:
nycha2 <- pdf_data(pdf_file)
width height x y space text
<int> <int> <int> <int> <lgl> <chr>
1 31 14 39 18 TRUE NYCHA
2 47 14 73 18 TRUE PROPERTY
3 52 14 123 18 FALSE DIRECTORY
4 43 14 39 33 TRUE ADDRESS
5 28 14 85 33 FALSE GUIDE
6 38 8 61 48 FALSE ADDRESS
7 31 14 540 18 FALSE BRONX
8 60 8 217 48 FALSE DEVELOPMENT
9 35 8 123 49 FALSE ZIPCODE
10 40 8 358 48 TRUE MANAGED
# ... with 733 more rows
此post中提供的解决方案使我与之接近,但并非一直如此。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)