klyang (@kyle1106)智谱开源GLM-OCR:0.9B参数登顶OmniDocBench,性能接近Gemini-3-Pro 中发帖

智谱正式发布并开源GLM-OCR,该模型仅0.9B参数规模,支持vLLM、SGLang和Ollama部署,以“小尺寸、高精度”实现文档解析能力新标杆。其在权威文档解析榜单OmniDocBench V1.5中以94.6分登顶,在公式识别、表格识别、信息抽取等多项主流基准中均取得SOTA表现,性能接近Gemini-3-Pro。得益于自研CogViT视觉编码器与系统性设计,GLM-OCR能精准解析扫描件、PDF及票据,有效解决手写、印章及多语言混排难题。价格方面,API仅需0.2元/百万Tokens,成本约为传统OCR方案的1/10,并同步开源完整SDK与推理工具链,支持一行命令快速调用。