网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理 文章后面会有一个实例,来说明数据训练步骤
字库训练下载jTessBoxEditorFX https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
文件名必须是如下格式:
[lang].[fontname].exp[num]
lang:语言名(训练生成的示为语言) fontname:字体名 num:序号(无所谓) 于是可以得到一个命名为 num.peng.exp1.tif 的文件
1、准备样本图片,合并为.tif文件 jTessBoxEditorFX -> tools->merge tiff
2、生成.bok文件
tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox
3、字符矫正 jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正
生成训练数据示例假设有3个文件,tif文件
1、创建font_properties文件 文件内容为 :
# eg:
echo peng