sd ddeepseekocr2发布了,是不是为多模态铺路? 中发帖

我们提出了 DeepSeek-OCR 2,以研究一种新型编码器 ——DeepEncoderV2 的可行性,该编码器能够根据图像语义动态重新排序视觉令牌。传统的视觉 - 语言模型(VLMs)在输入到大型语言模型(LLMs)时,总是按照固定的光栅扫描顺序(从左上角到右下角)处理视觉令牌,并使用固定的位置编码。然而,这与人类的视觉感知相矛盾,人类的视觉感知遵循由内在逻辑结构驱动的灵活且语义连贯的扫描模式。特别是对于布局复杂的图像,人类视觉会表现出具有因果信息的顺序处理方式。受这种认知机制的启发,DeepEncoder V2 旨在赋予编码器因果推理能力,使其能够在基于大型语言模型进行内容解读之前,智能地重新排序视觉令牌。本研究探索了一种新范式:是否可以通过两个级联的一维因果推理结构有效实现二维图像理解,从而提供一种新的架构方法,有望实现真正的二维推理。代码和模型权重可在http://github....