文本的光学识别及其结构标题,字幕,正文的分析

问题描述

我们希望分析文本(非手写体)和图像的扫描方式,这些扫描方式具有范围广泛的不同语言的排列/结构。我们试图解决的第一个问题是提取文本以及识别和分隔标题,字幕和文本正文。

目前,我们正在做文献研究。关于深度学习,计算机视觉,光学字符识别或自然语言处理的文献很多,但这些文献实际上都没有专门针对文本结构的光学识别。

我们想知道,处理光学识别文本结构的学科/领域的名称是什么?

解决这些问题的最新方法和工具是什么?

解决方法

光学布局识别(OLR)。 here是一个很好的例子,它是用于布局分析和区域提取的开源工具。