Schrödinger (@synbio)阿里Qwen连夜发布了超大规模MoE模型:Qwen2.5-Max,性能超过了DeepSeek V3 中发帖

阿里Qwen连夜发布了超大规模MoE模型:Qwen2.5-Max,性能超过了DeepSeek V3 
Qwen2.5-Max使用超过20万亿token的预训练数据
在Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond测试中,超过了 DeepSeek V3
在基座模型中,Qwen2.5-Max 超过了 DeepSeek V3、Llama-3.1-405B、Qwen2.5-72B
可以Qwen Chat或API中使用,在Qwen Chat中直接与模型对话,或者使用 artifacts、搜索等功能
[image]
博客

Demo