粉毛红瞳精神病美少女松坂砂糖 (@MatsuzakaSato) 在 大模型阉割的几种手段 中发帖
很遗憾,砂糖一年前的预言又一次印证了——力大砖飞的满血超大杯模型正在逐渐失宠。用户们逐渐认识到小型模型结合合理的优化策略(例如CoT、深度思考),能够在某种程度上以更低的算力消耗,达到全参数满血大尺寸模型同级别的输出质量。
那么,如何在不牺牲性能的前提下,精简模型以实现成本与质量的平衡呢?另外,“671B“的Deepseek-v3/r1,就一定是所谓的”满血版“吗?
认识模型
我们所谓的“模型”,其实储存的是模型各个节点的参数,包括权重和偏置。通常来说,参数量越大的模型能够存储的信息越多,理论上可以处理更加复杂的任务。每个参数也的确就是一个数,与计算机中的其他数一样,它也具有位数和精度——32位浮点(fp32),16位浮点(fp16),8位整型(int8)等等。更高的精度,以及更大的参数量,都会提升模型的性能需求,也能提升模型的输出质量,但同时也会消耗更多的计算资源。
模型的阉割技术...