@fengchris 在 PaddleOCR升级至VL-1.5版本 OCR新王诞生! 中发帖
PaddleOCR-VL-1.5 是 PaddleOCR-VL 的全新迭代版本,更加注重真实场景上的文档解析能力和新能力的扩展。基于创新的不规则形状定位的PP-DocLayoutV3算法,能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。其紧凑多模态模型PaddleOCR-VL-1.5-0.9B 在保持原有模型参数量的情况下,扩展了领先的文本定位识别和印章识别能力,同时支持识别的语言扩充至111种,且复杂场景的元素识别能力也得到显著的强化和提升。
核心特性:
文档解析任务的SOTA性能: PaddleOCR-VL-1.5 在 OmniDocBench v1.5 基准上实现了 94.5% 的高精度,超越了全球顶尖的通用大模型和文档解析专用模型。
现实5大场景文档解析的SOTA性能: 引入了一种创新的文档解析方法,业界首个支持不规则文档版面定位。在扫描、弯曲、倾斜、...