@HCPTangHY 在 小红书团队开源FireRed-OCR:2B模型攻克视觉语言模型“结构幻觉” 中发帖
小红书Super Intelligence团队正式开源FireRed-OCR系统。这是一项将通用大型视觉语言模型转化为像素级工业OCR(光学字符识别)专家的全新技术框架。相关模型权重与完整代码已在GitHub及开源平台全面上线。
Model:
Demo
GitHub:
Technical report:
[image]
测试数据显示,参数量仅为2B的FireRed-OCR在权威基准OmniDocBench v1.5中以92.94%的综合成绩夺冠。这一表现不仅大幅超越DeepSeek-OCR 2等专用的端到端OCR系统,更在复杂表格结构解析与空间位置推理任务上,跨越量级击败了数百亿参数的各类通用智能体与旗舰大模型。
[image]