如何在pytesseract中使用osd,equ.traineddata和其他训练数据文件孟加拉语,印地语命令以及将eq.traineddata放在何处

问题描述

我希望tesseract引擎使用eq.traineddata来处理某些数学以及孟加拉语(印地语)文本。当我转到/usr/share/tesseract-ocr/4.00/tessdata时,只能看到一堆*.traineddata文件。检查official documentation,我找到了这些数据文件链接。我已经从github下载了osd.traineddatatessdata link中给出的所有其他文件

现在我该怎么办??我必须在哪里放置这些文件,然后哪个命令将启用这些语言?

我正在使用Ubuntu 18Conda环境。

解决方法

您可以将 *.traineddata 文件复制到 /usr/share/tesseract-ocr/4.00/tessdata。在运行 tesseract 期间,您可以使用 -l param 传递训练数据。

E.g) tesseract inputpath output -l osd