问题描述
|
我已经使用以下命令裁剪了PDF。
gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c \"[/CropBox [64 418 348 803] /PAGE pdfmark\" ^
-f original.pdf
PDF被裁剪。我使用以下命令从裁剪的PDF中提取文本。
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNOdisPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYstemDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\\output.txt ^
-dQUIET
输出包含原始PDF的文本,而不包含裁剪的PDF。
有人可以帮助您仅从裁剪的PDF中提取文本。
谢谢
纳泽尔
解决方法
您得到的结果正是预期的结果。
裁剪PDF页面并不意味着:裁剪裁剪区域周围的所有内容并将其删除。
裁剪意味着:仅显示裁剪区域内的内容(并缩放至该区域),并隐藏其周围的内容。
因此,当您将此类页面转换为文本时,您还将获得隐藏的内容。
, 如果您尝试其他方式将cropped.pdf转换为文本,则可能会更幸运:
在Acrobat / Adobe Reader中打开它。
点击\'文件->另存为文本... \'