问题描述
我正在使用 C# 和 .NET 开发一个小应用程序,以自动化目前手动完成的过程。该应用程序正在 PDF 文档中查找特定模式,并根据该模式将其上传到任何需要的位置。它在处理 PDF 时没有任何问题,这些 PDF 已经以数字方式(Word、Nodepad 等...)编写,然后转换为 PDF。
后来发现,以后要用到的文件,90%都是扫描件。结果证明这是一个比我预期的要大得多的问题。我找到了多个可以处理此任务的第三方库 -> iText7、LeadTools、ABBYY、WhatsMate PDF-to-text API、SautinSoft .NET Offce Edition。问题是,他们都是有偿的,我负担不起。
我想到了将 PDF 转换为任何图像类型(jpg、png、tiff 等)并使用 Tesseract OCR 识别文本的想法。问题是,我找不到免费使用的库来转换为图像类型。
我正在寻求有关该主题的任何建议。是否可以免费从扫描的 PDF 中提取文本?或者,是否可以将 PDF 转换为图像类型并免费使用 OCR?
感谢您的时间,如果我没有以正确的方式格式化我的问题,我深表歉意。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)