@touchinstant读《图解DeepSeek技术》 中发帖

书中主要内容包括 3 大部分:推理大模型概述、DS 架构、DS-R1 的训练方法 
推理大模型更关注如何得到答案,而不是直接给出答案。它会把问题逐步拆分、细化。
DS-v3的基底大模型训练时就使用了很多省成本、提效率的方法
DS-R1-zero在不使用监督数据,只靠强化学习就创造了强推理的模型
DS-R1借鉴了 zero 的想法,使用中间模型构建出来的推理样本和非推理样本(一共 80 万条)进行 SFT,最终训练出 DS-R1。其中的 80 万条样本数据还可以用于小模型的数据蒸馏
[image]
最后,附一段大神 kapathy 对 2025 年 ai 发展的一个回顾片段,感觉是对这本书的内容的一个更好的概括:

RLVR 強化學習成為新標準

2025 年前的 LLM 訓練流程是: 預訓練 → SFT 監督微調 → RLHF 人類回饋強化學習。今年 RLVR (Reinfo...