Tesseract中有没有一种方法可以将文本元数据与文本一起捕获？

我正在尝试确定是否可以使用Tesseract捕获文本元数据，例如字体大小，字体系列，粗体/斜体等。以下是我尝试使用的代码，但没有用，并返回了“无” 。使用 Tesseract版本= 4.1.1，Tesseract-OCR引擎版本= 5.0.0

const { Hits,hits } = data;
console.log("Hits:",Hits,hits)
setMovies(Hits)

当前，使用Tesseract，我能够正确捕获文本，但不能捕获元数据。我已经附上了示例图像文件和示例预期输出。

预期输出： [字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size] GCEO评论

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]尊敬的股东，

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]正在翻转...。

[字体：“ some_font”，字体家族：“ some_font_family”，粗体，字体大小：“ some_font_size]我们在核心程序中表现出色，并获得了移动用户的分享.........

因此，基本上，无论元数据发生什么变化，我们都应该能够捕获信息并将该信息放在该句子之前。

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）