问题描述
我有一个包含大量gt.txt和tiff文件的数据集,大约有1000个文件,我尝试使用tesstrain项目并运行以下命令make training MODEL_NAME = cmc7 TESSDATA = path / to / tessdata_best 该命令运行成功,但是当我尝试使用训练有素的数据时,该命令无法正常工作。我的问题是为tesseract训练我的数据集的正确形式是什么?谢谢。
解决方法
要使用图像训练数据集,除了图像之外,我还使用2种文件类型:
- 具有预期输出的 gt.txt 文件 从图像中生成的
- 盒文件,其中包含我要训练模型的更改
我将所有3个文件放入 tesstrain / data / my-model-ground-truth 中,并从tesstrain文件夹中运行以下命令:
make training MODEL_NAME=my-model START_MODEL=eng TESSDATA=../tessdata_best
那是假设您要在 tessdata_best 存储库的 eng.traineddata 之上进行训练: https://github.com/tesseract-ocr/tessdata_best
这会在 tesstrain / data 文件夹内生成my-model.traineddata