@fengchris 在 源3.0 Ultra多模态大模型开源发布 万亿参数 性能卓越 中发帖
Yuan3.0 Ultra 采用统一多模态模型架构,由视觉编码器、语言主干网络与多模态对齐模块组成,实现视觉与语言信息的协同建模。其中,语言主干网络基于混合专家(MoE)架构构建,包含 103 层 Transformer,训练初始阶段参数规模 1515B,通过 LAEP 方法创新,团队在预训练过程中将模型参数优化至 1010B,预训练算力效率提升 49%。Yuan 3.0 Ultra模型的激活参数为 68.8B。此外,模型还引入了 Localized Filtering Attention(LFA)机制,有效强化对语义关系的建模能力,相比经典 Attention 结构可获得更高的模型精度表现。
[image]
Yuan3.0 Ultra 在检索增强生成、多模态文档理解、表格数据分析、内容摘要与工具调用等任务中表现突出。
[image]
仓库:GitHub - Yuan-lab-...