@JackBlue 在 Qwen3-VL系列即将发布,已经向Transformers提交PR 中发帖
[image]
https://xcancel.com/JustinLin610/status/1965785934458495066#m
[image]
此 PR 引入了对即将推出的 Qwen3-VL 模型的支援,包括密集型和 MoE 变体,以及指令和思考版本。作为 Qwen-VL 系列的下一代,Qwen3-VL 在视觉理解方面带来了显著进步,同时保留了强大的纯文本能力,在复杂的多模态任务中实现了卓越性能。
Qwen3-VL
Qwen3-VL 是一个多模态视觉语言模型系列,包括密集型和 MoE 变体,以及指令和思考版本。在继承前代的基础上,Qwen3-VL 在视觉理解方面实现了显著提升,同时保持了强大的纯文本能力。关键架构改进包括:增强的 MRope 采用交错布局以更好地进行时空建模,DeepStack 集成以有效利用视觉 Transformer(ViT)的多级特征,以及...