Safphere 在 Deepseek 团队开源 3B 的 DeepSeek-OCR 中发帖此前也有询问过deepseek团队网页为什么支持识别图片和 pdf等文档，得到的结果是仅支持识别图片和文档中的文字内容，并将这个内容构建上下文给到v3模型进行整理和回复

Safphere 在 Deepseek 团队开源 3B 的 DeepSeek-OCR 中发帖

此前也有询问过deepseek团队网页为什么支持识别图片 和 pdf等文档， 
得到的结果是 仅支持识别图片和文档中的文字内容，并将这个内容构建上下文给到v3模型进行整理和回复。 
并不不同于传统的ocr模型，团队回复的是针对性做了处理和优化，看来这次是看到本尊了。 
相关的权重和论文都已经开源，感兴趣的可以去了解一些。 
在10倍压缩比下，模型的OCR准确率达到了96%以上，即使是20倍压缩比时，准确率也能维持在60%左右。 
DeepSeek-OCR的模型结构包括两个主要部分：DeepEncoder和MoE解码器。其中，DeepEncoder是核心组件，负责将输入图像压缩为视觉标记。这个编码器能处理高分辨率图像，同时保持低的计算需求。它采用了一种混合模型结构，结合了窗口注意力和全局注意力，能够根据需要处理不同分辨率的图像。解码器部分使用了MoE（Mixture of Experts）架...