Erratic记一次针对"算式验证码"识别任务的 PPOCRv5 模型的微调 中发帖

PaddleOCR训练模型
数据集准备
在 GitHub 上找到一个开源项目,这个项目提供了一批算式验证码图片和对应标签, 例如:
[示例图片]
该数据集都是数学算式图片,label 格式固定为 ​a+b=?​ ​ 或 a-b=?​ *等形式。字符集共 16 个字符,包含数字 0-9​和运算符+​、-​ 、​*​ 、​/​ 、​=​ 、​?
数据集分析
基本信息




属性
Train
Val




样本总数
7,073
2000



长度分析
这一步是验证数据集中的样本是否遵守 number operator number = ? ​的格式




数据集
长度
样本数
占比




Train
5
7,073
100.0%


Val
5
2,000
100.0%







统计指标
Train
Val




Max
5
5


P95
5.0
5.0


P99
5...