LINUX DO Channel

@lming 在百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5 中发帖

PaddleOCR-VL-1.5：面向鲁棒自然场景文档解析的多任务 0.9B 视觉语言模型


PaddleOCR-VL-1.5 - 面向真实场景文档解析的多任务 0.9B 视觉语言模型 
面向真实场景文档解析和文本定位识别任务的 SOTA 且资源高效的模型，在正常、扫描、倾斜、弯曲、屏摄与复杂光照六类场景文档解析任务上均取得全面的领先，新增支持文本检测识别任务能力，新增印章识别能力，强化复杂元素（如文本、表格、公式和图表）的识别能力，扩展支持至 111 种语言，同时资源消耗极低。 


PaddleOCR-VL-1.5 是 PaddleOCR-VL 的全新迭代版本，更加注重真实场景上的文档解析能力和新能力的扩展。基于创新的不规则形状定位的PP-DocLayoutV3算法，能够在扭曲、倾斜、扫描、光照和屏幕拍照的自然文档场景实现精确的版面解析。其紧凑多模态模型PaddleOCR-VL-1....