@HCPTangHY 在 DeepSeek发布新一代OCR模型 OCR 2 中发帖
DeepSeek-AI正式发布并开源了新一代视觉语言模型DeepSeek-OCR 2及其技术论文。该模型通过创新的编码器架构DeepEncoder V2,首次赋予了人工智能在处理二维图像时的**“因果推理”**能力,彻底改变了传统模型死板的图像解析方式,为复杂文档的数字化理解提供了全新的技术路径。
在技术解读层面,当前主流的视觉大模型在“看图”时,普遍采用类似扫描仪的固定光栅扫描顺序,即机械地从左上角扫描至右下角。这种方式严重忽略了版面中固有的语义联系,极易在处理报纸跳跃排版、复杂表格或数学公式时出现逻辑混乱。DeepSeek-OCR 2则模仿了人类眼球的认知机制,它不再盲目扫描,而是通过用类似大语言模型的架构替换传统视觉组件,先理解图像的语义结构,再动态决定视觉信息的读取顺序。这种“视觉因果流”技术,使得AI能够像人类一样,根据内容的逻辑进行智能的跳跃和聚焦阅读。
得益于这一底层架构...