如果PDF文件是第一代文档,我们如何检入uipath?

问题描述

UIPath中是否有某种方式或活动可以检查PDF文件是否为第一代文档?一个想法或帮助将不胜感激。谢谢。

解决方法

这比适当的解决方案更像是一种技巧,但它应该可以工作:将IntelligentOCR软件包中的数字化活动与您知道会返回单词置信度的OCR一起使用(我认为Microsoft OCR可以,但要仔细检查)。 Digitize活动将决定是否需要OCR,并且如果不使用任何OCR(意味着它是本机文档或您称其为第一代),则DOM中的所有OCRConfidences将为-1。

有两个注意事项:

  • 如果数字化文档确定文档文本不可读(例如由于超奇怪的自定义字体),则在某些奇怪的边缘情况下,数字化软件也可能决定在本机PDF上使用OCR
  • 虽然当前不支持,但是Digitize活动可能会在将来的某个时候执行部分OCR,例如当本机PDF包含带有文本的图像时。与任何“未记录的功能”一样,请谨慎使用,因为将来升级到新版本时,它随时可能会中断。