Hui Jin 在【AI科普】简单介绍下大模型中的量化技术中发帖量化是将模型的权重（通常是32位浮点数，FP32，模型权重决定计算能力）压缩成低精度格式（如8位整数INT8或4位整数INT4）的技术，目的是减少内存占用和加速计算，同时尽量保持模型性能

Hui Jin 在【AI科普】简单介绍下大模型中的量化技术中发帖

量化是将模型的权重（通常是32位浮点数，FP32，模型权重决定计算能力）压缩成低精度格式（如8位整数INT8或4位整数INT4）的技术，目的是减少内存占用和加速计算，同时尽量保持模型性能。 
大模型动辄几十亿甚至上千亿参数，以FP32存储每个参数占4字节，671B参数的DeepSeek R1原始大小可能超过2TB，普通硬件根本跑不动。量化后： 

FP32 → INT8：内存减少4倍。
FP32 → INT4：内存减少8倍。

此外，现代计算机对整数运算的硬件优化（如SIMD指令）还能进一步提升推理速度。例如，INT8量化后，一个50B参数的模型可能在单张GPU上运行，而FP32需要多卡分布式。 
如何确保量化后的精度？
运用类似离散化的思路，利用范围缩放和偏移量，将一个浮点数表达的范围映射到整数上。 

假设模型权重范围为[-1.5, 2.3]

计算缩放因子：scale = \frac...