@fengchris 在 OCR领域再添9B开源模型Chandra 中发帖
Chandra 是一款能够输出 markdown、HTML 和 JSON 格式的 OCR(光学字符识别)模型。它在从图像和 PDF 中提取文本时具有极高的准确性,同时能够保留布局信息。在独立的 olmocr 基准测试里拔得头筹。
看样子是基于Qwen3-VL训练的。
功能特性
• 将文档转换为包含详细布局信息的 markdown、html 或 json 格式
• 对手写文字具有良好的识别支持
• 能够准确重建表单,包括复选框
• 对表格、数学公式和复杂布局具有良好的支持
• 提取图像和图表,并附带标题和结构化数据
• 支持 40 多种语言
[image]
[image]
You can try Chandra in the free playground here, or at a hosted API here.
权重地址:datalab-to/chandra ...