问题描述
我正在尝试使用以下方法从PDF中提取文本:
public static string GetRectangleText(string pdfPath,int pageId,float[] rectangleDimensions)
{
using (PdfDocument pdfDoc = new PdfDocument(new PdfReader(pdfPath)))
{
var page = pdfDoc.GetPage(pageId);
iText.Kernel.Geom.Rectangle rect = new iText.Kernel.Geom.Rectangle(rectangleDimensions[0],rectangleDimensions[1],rectangleDimensions[2],rectangleDimensions[3]);
var filter = new IEventFilter[1];
filter[0] = new TextRegionEventFilter(rect);
var filteredTextEventListener = new FilteredTextEventListener(new LocationTextExtractionStrategy(),filter);
var result = PdfTextExtractor.GetTextFromPage(page,filteredTextEventListener);
return result;
}
}
虽然它对于大多数文档都适用,但几个PDF似乎已破坏其编码,但返回的字符串如ǪȃǷǻȁǭǵǶǬdzȇǹǺǸǶǰǺǭdzȄǹǺǪǨ,668(')25&216758&7,21
实际上应该是ВЫПУЩЕНО ДЛЯ СТРОИТЕЛЬСТВА / ISSUED FOR CONSTRUCTION
我想知道某种特定的LocationTextExtractionStrategy是否会有所帮助?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)