从PDF裁剪并提取文本

问题描述

| 我已经使用以下命令裁剪了PDF。
gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c \"[/CropBox [64 418 348 803] /PAGE pdfmark\" ^
-f original.pdf
PDF被裁剪。我使用以下命令从裁剪的PDF中提取文本。
gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNOdisPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYstemDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\\output.txt ^
-dQUIET 
输出包含原始PDF的文本,而不包含裁剪的PDF。 有人可以帮助您仅从裁剪的PDF中提取文本。 谢谢 纳泽尔     

解决方法

        您得到的结果正是预期的结果。 裁剪PDF页面并不意味着:裁剪裁剪区域周围的所有内容并将其删除。 裁剪意味着:仅显示裁剪区域内的内容(并缩放至该区域),并隐藏其周围的内容。 因此,当您将此类页面转换为文本时,您还将获得隐藏的内容。     ,        如果您尝试其他方式将cropped.pdf转换为文本,则可能会更幸运:   在Acrobat / Adob​​e Reader中打开它。      点击\'文件->另存为文本... \'