@josenlou推理Token用量减少75%-Yuan 3.0 Flash 中发帖

Yuan 3.0 Flash 是YuanLab.ai 团队开发,是一款 40B 参数规模的大模型。 
特色是采用MOE架构,单次推理只需要3.7B,并且在测试中答应GPT5.1。在推理精度上可以跟235B的模型互比上下,但Token用量减少75%。
目前模型已经发表,感兴趣的可以玩看看。
[IMG_5045]
模型


技术文件


GitHub


偷偷说一下,目前我正在进行APP限免的板块申请
如果可以的话希望大家支持一下!

请进