@fengchris小红书开源1.7B的SOTA OCR模型 dots.ocr 中发帖

dots.ocr 是一款功能强大的多语言文档解析工具,它将版面检测与内容识别统一于单一的视觉-语言模型之中,同时保持了良好的阅读顺序。尽管其底层语言模型仅有 1.7B 参数,仍达到了业界领先(SOTA)的性能水平。 
卓越的性能表现:
在 OmniDocBench 基准测试中,dots.ocr 在文本识别、表格解析和阅读顺序恢复方面均实现了 SOTA 性能,其公式识别效果也与 Doubao-1.5 和 Gemini 2.5 Pro 等更大规模的模型相当。
多语言支持能力:
dots.ocr 在低资源语言上展现出强大的解析能力。在我们内部构建的多语言文档基准测试中,其在版面检测与内容识别两方面均取得了显著优势。
统一且简洁的架构设计:
通过采用单一视觉-语言模型(VLM),dots.ocr 相比传统依赖多个模型串联的复杂流程,实现了更为简化的系统架构。不同任务之间的切换仅需更改输入...