dharma 在 Grok 3 是否意味着大力出奇迹的大模型法则仍然成立? 中发帖
Grok 3 是否意味着大力出奇迹的大模型法则仍然成立?
来源: OSCHINA
编辑: 局
2025-02-19 11:02:00
0
本文转载自:https://zhuanlan.zhihu.com/p/24609799526
作者:张俊林(中科院软件所 博士)
媒体风向变化太快,让人目不暇接。早上还在夸 Deepseek 成本低,性价比高,预训练 Scaling Law 死了,不需要太多机器和 GPU 卡,性价比优先,英伟达休矣;中午 Grok 3 一出来,说是用了 10 万张英伟达 H100 卡,效果力压 OpenAIo3 mini 和 Deepseek R1,就转向说 Scaling law 还成立,还需要大量的卡,英伟达股价有救了,还是要大力出奇迹……
这两个观点明显对立,有一真必有一假,那事实的真相到底是啥呢?我们来推一推。
一、预训练阶段的 Sca...