@xstongxue 在我开源了一个智能OCR工具："不止于识别，更懂内容" 中发帖为什么我们需要一个新的OCR工具？在数字化时代，我们每天都在与各种文字打交道：扫描文档、截图内容、手写笔记、表格数据… 传统的 OCR 工具虽然能识别文字，但往往只是"看到"而不能"理解"

@xstongxue 在我开源了一个智能OCR工具："不止于识别，更懂内容" 中发帖

为什么我们需要一个新的OCR工具？
在数字化时代，我们每天都在与各种文字打交道：扫描文档、截图内容、手写笔记、表格数据… 
传统的 OCR 工具虽然能识别文字，但往往只是"看到"而不能"理解"。 
想象一下这样的场景： 


你需要从截图中快速提取各种类型(表格/手写体等)图片的内容
你遇到一张外文图片，想要翻译的同时保持原有的格式和语境
你拍了一张复杂的财务报表，不仅想提取文字，还想让AI帮你分析数据趋势
你有一份手写的会议记录，希望不仅转成文字，还能自动整理成结构化的会议纪要


这就是 XS-VLM-OCR 诞生的原因——我们不只是在做OCR，而是在构建一个智能视觉语言理解系统。 
不只是识别，更是理解
多模型智能引擎


Qwen-VL系列：阿里云全系列视觉语言模型，支持Qwen-VL-Plus/Max/235B-VL等
GLM-4V系列：智谱AI的多模态大模型，支持GLM-4.5...