文本的光学识别及其结构标题，字幕，正文的分析

我们希望分析文本（非手写体）和图像的扫描方式，这些扫描方式具有范围广泛的不同语言的排列/结构。我们试图解决的第一个问题是提取文本以及识别和分隔标题，字幕和文本正文。

目前，我们正在做文献研究。关于深度学习，计算机视觉，光学字符识别或自然语言处理的文献很多，但这些文献实际上都没有专门针对文本结构的光学识别。

我们想知道，处理光学识别文本结构的学科/领域的名称是什么？

解决这些问题的最新方法和工具是什么？

光学布局识别（OLR）。 here是一个很好的例子，它是用于布局分析和区域提取的开源工具。