@HCPTangHY 在 DeepSeek发布新一代OCR模型 OCR 2 中发帖DeepSeek-AI正式发布并开源了新一代视觉语言模型DeepSeek-OCR 2及其技术论文

@HCPTangHY 在 DeepSeek发布新一代OCR模型 OCR 2 中发帖

DeepSeek-AI正式发布并开源了新一代视觉语言模型DeepSeek-OCR 2及其技术论文。该模型通过创新的编码器架构DeepEncoder V2，首次赋予了人工智能在处理二维图像时的**“因果推理”**能力，彻底改变了传统模型死板的图像解析方式，为复杂文档的数字化理解提供了全新的技术路径。 
在技术解读层面，当前主流的视觉大模型在“看图”时，普遍采用类似扫描仪的固定光栅扫描顺序，即机械地从左上角扫描至右下角。这种方式严重忽略了版面中固有的语义联系，极易在处理报纸跳跃排版、复杂表格或数学公式时出现逻辑混乱。DeepSeek-OCR 2则模仿了人类眼球的认知机制，它不再盲目扫描，而是通过用类似大语言模型的架构替换传统视觉组件，先理解图像的语义结构，再动态决定视觉信息的读取顺序。这种“视觉因果流”技术，使得AI能够像人类一样，根据内容的逻辑进行智能的跳跃和聚焦阅读。 
得益于这一底层架构...