如何在pytesseract中使用osd，equ.traineddata和其他训练数据文件孟加拉语，印地语命令以及将eq.traineddata放在何处

问题描述

我希望tesseract引擎使用eq.traineddata来处理某些数学以及孟加拉语（印地语）文本。当我转到/usr/share/tesseract-ocr/4.00/tessdata时，只能看到一堆*.traineddata文件。检查official documentation，我找到了这些数据文件的链接。我已经从github下载了osd.traineddata和tessdata link中给出的所有其他文件。

现在我该怎么办？？我必须在哪里放置这些文件，然后哪个命令将启用这些语言？

我正在使用Ubuntu 18和Conda环境。

解决方法

您可以将 *.traineddata 文件复制到 /usr/share/tesseract-ocr/4.00/tessdata。在运行 tesseract 期间，您可以使用 -l param 传递训练数据。

E.g) tesseract inputpath output -l osd

ocr python-tesseract tesseract ubuntu