您当前的位置: 首页 > 

彭世瑜

暂无认证

  • 0浏览

    0关注

    2791博文

    0收益

  • 0浏览

    0点赞

    0打赏

    0留言

私信
关注
热门博文

tesseract、jTessBoxEditorFX训练数据实践

彭世瑜 发布时间:2020-02-19 19:12:01 ,浏览量:0

网上很多文章都总结的很好,这里就不做重复,只是简单的将步骤梳理 文章后面会有一个实例,来说明数据训练步骤

字库训练

下载jTessBoxEditorFX https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/

文件名必须是如下格式:

[lang].[fontname].exp[num]

lang:语言名(训练生成的示为语言) fontname:字体名 num:序号(无所谓) 于是可以得到一个命名为 num.peng.exp1.tif 的文件

1、准备样本图片,合并为.tif文件 jTessBoxEditorFX -> tools->merge tiff

2、生成.bok文件

tesseract num.peng.exp1.tif num.peng.exp1 batch.nochop makebox

3、字符矫正 jTessBoxEditorFX -> Box Editor->Open,num.peng.exp1.tif,调整校正

生成训练数据

示例假设有3个文件,tif文件

1、创建font_properties文件 文件内容为 :

     

# eg:
echo peng
关注
打赏
1665367115
查看更多评论
立即登录/注册

微信扫码登录

0.2392s