问题描述
我希望tesseract引擎使用eq.traineddata
来处理某些数学以及孟加拉语(印地语)文本。当我转到/usr/share/tesseract-ocr/4.00/tessdata
时,只能看到一堆*.traineddata
文件。检查official documentation,我找到了这些数据文件的链接。我已经从github下载了osd.traineddata
和tessdata link中给出的所有其他文件。
现在我该怎么办??我必须在哪里放置这些文件,然后哪个命令将启用这些语言?
我正在使用Ubuntu 18
和Conda
环境。
解决方法
您可以将 *.traineddata 文件复制到 /usr/share/tesseract-ocr/4.00/tessdata。在运行 tesseract 期间,您可以使用 -l param 传递训练数据。
E.g) tesseract inputpath output -l osd