从PDF裁剪并提取文本

问题描述

| 我已经使用以下命令裁剪了PDF。

gswin32c.exe ^
-o cropped.pdf ^
-sDEVICE=pdfwrite ^
-c \"[/CropBox [64 418 348 803] /PAGE pdfmark\" ^
-f original.pdf

PDF被裁剪。我使用以下命令从裁剪的PDF中提取文本。

gswin32c.exe ^
-q ^
-sFONTPATH=c:/windows/fonts ^
-dNOdisPLAY ^
-dSAFER ^
-dDELAYBIND ^
-dWRITESYstemDICT ^
-dSIMPLE ^
-f ps2ascii.ps ^
-dFirstPage=1 ^
-dLastPage=1 ^
cropped.pdf ^
-> c:\\output.txt ^
-dQUIET

输出包含原始PDF的文本，而不包含裁剪的PDF。有人可以帮助您仅从裁剪的PDF中提取文本。谢谢纳泽尔

解决方法

您得到的结果正是预期的结果。裁剪PDF页面并不意味着：裁剪裁剪区域周围的所有内容并将其删除。裁剪意味着：仅显示裁剪区域内的内容（并缩放至该区域），并隐藏其周围的内容。因此，当您将此类页面转换为文本时，您还将获得隐藏的内容。 , 如果您尝试其他方式将cropped.pdf转换为文本，则可能会更幸运：在Acrobat / Adobe Reader中打开它。点击\'文件->另存为文本... \'

pdf pdf pdf 提取提取提取文本文本文本裁剪裁剪