Tesseract我如何训练我的数据集

问题描述

我有一个包含大量gt.txt和tiff文件的数据集,大约有1000个文件,我尝试使用tesstrain项目并运行以下命令make training MODEL_NAME = cmc7 TESSDATA = path / to / tessdata_best 该命令运行成功,但是当我尝试使用训练有素的数据时,该命令无法正常工作。我的问题是为tesseract训练我的数据集的正确形式是什么?谢谢。

解决方法

要使用图像训练数据集,除了图像之外,我还使用2种文件类型:

  • 具有预期输出的 gt.txt 文件
  • 从图像中生成的
  • 盒文件,其中包含我要训练模型的更改

我将所有3个文件放入 tesstrain / data / my-model-ground-truth 中,并从tesstrain文件夹中运行以下命令:

make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best

那是假设您要在 tessdata_best 存储库的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best

这会在 tesstrain / data 文件夹内生成my-model.traineddata