如何使用 C# 从扫描的 PDF 文档中提取文本？

问题描述

我正在使用 C# 和 .NET 开发一个小应用程序，以自动化目前手动完成的过程。该应用程序正在 PDF 文档中查找特定模式，并根据该模式将其上传到任何需要的位置。它在处理 PDF 时没有任何问题，这些 PDF 已经以数字方式（Word、Nodepad 等...）编写，然后转换为 PDF。

后来发现，以后要用到的文件，90%都是扫描件。结果证明这是一个比我预期的要大得多的问题。我找到了多个可以处理此任务的第三方库 -> iText7、LeadTools、ABBYY、WhatsMate PDF-to-text API、SautinSoft .NET Offce Edition。问题是，他们都是有偿的，我负担不起。

我想到了将 PDF 转换为任何图像类型（jpg、png、tiff 等）并使用 Tesseract OCR 识别文本的想法。问题是，我找不到免费使用的库来转换为图像类型。

我正在寻求有关该主题的任何建议。是否可以免费从扫描的 PDF 中提取文本？或者，是否可以将 PDF 转换为图像类型并免费使用 OCR？

感谢您的时间，如果我没有以正确的方式格式化我的问题，我深表歉意。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

c#c#pdf pdftotext