@lming 在 百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5 中发帖
PaddleOCR-VL-1.5:面向鲁棒自然场景文档解析的多任务 0.9B 视觉语言模型
PaddleOCR-VL-1.5 - 面向真实场景文档解析的多任务 0.9B 视觉语言模型
面向真实场景文档解析和文本定位识别任务的 SOTA 且资源高效的模型,在正常、扫描、倾斜、弯曲、屏摄与复杂光照六类场景文档解析任务上均取得全面的领先,新增支持文本检测识别任务能力,新增印章识别能力,强化复杂元素(如文本、表格、公式和图表)的识别能力,扩展支持至 111 种语言,同时资源消耗极低。
PaddleOCR-VL-1.5 是 PaddleOCR-VL 的全新迭代版本,更加注重真实场景上的文档解析能力和新能力的扩展。基于创新的不规则形状定位的PP-DocLayoutV3算法,能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。其紧凑多模态模型PaddleOCR-VL-1....