@josenlou 在 推理Token用量减少75%-Yuan 3.0 Flash 中发帖
Yuan 3.0 Flash 是YuanLab.ai 团队开发,是一款 40B 参数规模的大模型。
特色是采用MOE架构,单次推理只需要3.7B,并且在测试中答应GPT5.1。在推理精度上可以跟235B的模型互比上下,但Token用量减少75%。
目前模型已经发表,感兴趣的可以玩看看。
[IMG_5045]
模型
技术文件
GitHub
偷偷说一下,目前我正在进行APP限免的板块申请
如果可以的话希望大家支持一下!
▶
请进