@Ben2008 在 Mercury模型 快得离谱 中发帖
zz:
这才是震撼业界的大新闻,晚上群里的兄弟们都震惊了,赶紧去体验了下 Mercury模型,被它的速度直接震惊到懵逼了,竟然能这么快
仔细去看了下,这是全球首个可商用的diffusion llm大语言模型,重点是 llm大语言模型用了diffusion,以前我们都适用它做图像和视频训练和应用,这次竟然用在了语言上。
区别于传统的tranformer大语言模型,它不是按照顺序来从左到右的预测 token,而是基于全局理解生成全局token,然后基于全局token来不停的迭代草稿优化最后给出全局结果。
这个diffusion大语言模型采用的新路径带来五个好处:
1、生成速度比原先要快10倍
2、成本性价比原先降低5-10倍
3、因为其全局理解能力,支持更高级更复杂的推理
4、天然的多模态理解能力
5、可以控制输出结构,使其成为函数调用和结构化数据生成的理想选择
Mercu...