SafphereDeepseek 团队开源 3B 的 DeepSeek-OCR 中发帖

此前也有询问过deepseek团队网页为什么支持识别图片 和 pdf等文档, 
得到的结果是 仅支持识别图片和文档中的文字内容,并将这个内容构建上下文给到v3模型进行整理和回复。
并不不同于传统的ocr模型,团队回复的是针对性做了处理和优化,看来这次是看到本尊了。
相关的权重和论文都已经开源,感兴趣的可以去了解一些。
在10倍压缩比下,模型的OCR准确率达到了96%以上,即使是20倍压缩比时,准确率也能维持在60%左右。
DeepSeek-OCR的模型结构包括两个主要部分:DeepEncoder和MoE解码器。其中,DeepEncoder是核心组件,负责将输入图像压缩为视觉标记。这个编码器能处理高分辨率图像,同时保持低的计算需求。它采用了一种混合模型结构,结合了窗口注意力和全局注意力,能够根据需要处理不同分辨率的图像。解码器部分使用了MoE(Mixture of Experts)架...