Tesseract中有没有一种方法可以将文本元数据与文本一起捕获?

问题描述

我正在尝试确定是否可以使用Tesseract捕获文本元数据,例如字体大小,字体系列,粗体/斜体等。以下是我尝试使用的代码,但没有用,并返回了“无” 。使用 Tesseract版本= 4.1.1,Tesseract-OCR引擎版本= 5.0.0

const { Hits,hits } = data;
console.log("Hits:",Hits,hits)
setMovies(Hits)

当前,使用Tesseract,我能够正确捕获文本,但不能捕获元数据。我已经附上了示例图像文件和示例预期输出

enter image description here

预期输出 [字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size] GCEO评论

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]尊敬的股东,

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]正在翻转...。

[字体:“ some_font”,字体家族:“ some_font_family”,粗体,字体大小:“ some_font_size]我们在核心程序中表现出色,并获得了移动用户分享.........

因此,基本上,无论元数据发生什么变化,我们都应该能够捕获信息并将该信息放在该句子之前。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)