树梢 (@bash99) 在 MineMax 2.1的特定AWQ版本内部部署了意外还能用 中发帖
在 红迪 那边看到的,有个有双卡B6000 96G的土豪部署并且推荐了。
这个网址的 mratsim/MiniMax-M2.1-FP8-INT4-AWQ · Hugging Face MiniMax 2.1版本,作者非常用心做了量化,甚至专门为某些量化操作对上游llm-compressor 提了PR。
几个特征,
修改了moe route层确保每个expert都calibrated了
self-attetion层保持了FP8精度,
expert量化到了W4A16。
校正(calibrated)数据集 大而且多样化同时集中在编程和devops领域,而且也包含多语言(中日韩印、西欧、阿拉伯等)。
最后我在内部4090 48G x 4的系统上尝试部署了,vllm 0.13.0 执行起来没问题。context可以给到 188000左右,perfill 2k~3k左右,decode 8...