以编程方式检查 PDF 可读性

问题描述

我正在开发一种工具,可以识别人眼无法读取的那些 PDF 文件(pdf 格式的扫描文档),我的意思是它们可能模糊或不清晰(DPI 较小)。需要此工具,因为有数百万个文件和 我们很难一一打开文件并确保其可读/清晰 我尝试过的: 我使用了 spire.pdf 库,使用这个库我从 pdf 中提取图像并检查每个图像的 DPI 并将其 dpi 与 150 dpi 进行比较,150 DPI 是我们所需的标准 DPI。所以我从pdf中提取图像并将每个图像的dpi与标准进行比较,如果图像的dpi小于标准我标记为“不清晰的图像” 上述解决方案后我面临的问题 PDF中有一些DPI小于150但清晰的图片,也有一些DPI很好,工具标记为好但模糊或不清晰的图片

你们中的任何人是否有过相同的要求,或者如果您有任何建议,我将不胜感激。

解决方法

我们可以通过使用我们的 PdfViewer 库将 PDF 转换为图像文件,然后使用 OpenCVSharp 开源库识别模糊图像来实现这一要求。请找到下面的示例,该示例从下面说明了相同的内容,

Identify blur image after converting PDF to image

注意:值越小(接近于零),CalculateBlurriness() 的结果是图像越清晰。

Syncfusion 没有任何直接支持/直接解决方案来实现此要求。这只是识别模糊图像的建议,结果可能因图像文件而异。