@josenlou 在推理Token用量减少75%-Yuan 3.0 Flash 中发帖Yuan 3.0 Flash 是YuanLab.ai 团队开发，是一款 40B 参数规模的大模型

@josenlou 在推理Token用量减少75%-Yuan 3.0 Flash 中发帖

Yuan 3.0 Flash 是YuanLab.ai 团队开发，是一款 40B 参数规模的大模型。 
特色是采用MOE架构，单次推理只需要3.7B,并且在测试中答应GPT5.1。在推理精度上可以跟235B的模型互比上下，但Token用量减少75%。 
目前模型已经发表，感兴趣的可以玩看看。 
 [IMG_5045] 
模型 


技术文件 


GitHub 


偷偷说一下，目前我正在进行APP限免的板块申请 
如果可以的话希望大家支持一下！ 
▶ 
请进