Erratic 在 记一次针对"算式验证码"识别任务的 PPOCRv5 模型的微调 中发帖
PaddleOCR训练模型
数据集准备
在 GitHub 上找到一个开源项目,这个项目提供了一批算式验证码图片和对应标签, 例如:
[示例图片]
该数据集都是数学算式图片,label 格式固定为 a+b=? 或 a-b=? *等形式。字符集共 16 个字符,包含数字 0-9和运算符+、- 、* 、/ 、= 、?
数据集分析
基本信息
属性
Train
Val
样本总数
7,073
2000
长度分析
这一步是验证数据集中的样本是否遵守 number operator number = ? 的格式
数据集
长度
样本数
占比
Train
5
7,073
100.0%
Val
5
2,000
100.0%
统计指标
Train
Val
Max
5
5
P95
5.0
5.0
P99
5...