@fengchris 在小红书开源1.7B的SOTA OCR模型 dots.ocr 中发帖dots.ocr 是一款功能强大的多语言文档解析工具，它将版面检测与内容识别统一于单一的视觉-语言模型之中，同时保持了良好的阅读顺序

@fengchris 在小红书开源1.7B的SOTA OCR模型 dots.ocr 中发帖

dots.ocr 是一款功能强大的多语言文档解析工具，它将版面检测与内容识别统一于单一的视觉-语言模型之中，同时保持了良好的阅读顺序。尽管其底层语言模型仅有 1.7B 参数，仍达到了业界领先（SOTA）的性能水平。 
卓越的性能表现： 
在 OmniDocBench 基准测试中，dots.ocr 在文本识别、表格解析和阅读顺序恢复方面均实现了 SOTA 性能，其公式识别效果也与 Doubao-1.5 和 Gemini 2.5 Pro 等更大规模的模型相当。 
多语言支持能力： 
dots.ocr 在低资源语言上展现出强大的解析能力。在我们内部构建的多语言文档基准测试中，其在版面检测与内容识别两方面均取得了显著优势。 
统一且简洁的架构设计： 
通过采用单一视觉-语言模型（VLM），dots.ocr 相比传统依赖多个模型串联的复杂流程，实现了更为简化的系统架构。不同任务之间的切换仅需更改输入...