Hui Jin 在 【AI科普】简单介绍下大模型中的量化技术 中发帖
量化是将模型的权重(通常是32位浮点数,FP32,模型权重决定计算能力)压缩成低精度格式(如8位整数INT8或4位整数INT4)的技术,目的是减少内存占用和加速计算,同时尽量保持模型性能。
大模型动辄几十亿甚至上千亿参数,以FP32存储每个参数占4字节,671B参数的DeepSeek R1原始大小可能超过2TB,普通硬件根本跑不动。量化后:
FP32 → INT8:内存减少4倍。
FP32 → INT4:内存减少8倍。
此外,现代计算机对整数运算的硬件优化(如SIMD指令)还能进一步提升推理速度。例如,INT8量化后,一个50B参数的模型可能在单张GPU上运行,而FP32需要多卡分布式。
如何确保量化后的精度?
运用类似离散化的思路,利用范围缩放和偏移量,将一个浮点数表达的范围映射到整数上。
假设模型权重范围为[-1.5, 2.3]
计算缩放因子:scale = \frac...