树梢 (@bash99) 在 MineMax 2.1的特定AWQ版本内部部署了意外还能用中发帖在红迪那边看到的，有个有双卡B6000 96G的土豪部署并且推荐了

树梢 (@bash99) 在 MineMax 2.1的特定AWQ版本内部部署了意外还能用中发帖

在 红迪 那边看到的，有个有双卡B6000 96G的土豪部署并且推荐了。 
这个网址的 mratsim/MiniMax-M2.1-FP8-INT4-AWQ · Hugging Face MiniMax 2.1版本，作者非常用心做了量化，甚至专门为某些量化操作对上游llm-compressor 提了PR。 
几个特征， 
修改了moe route层确保每个expert都calibrated了 
self-attetion层保持了FP8精度， 
expert量化到了W4A16。 
校正（calibrated）数据集 大而且多样化同时集中在编程和devops领域，而且也包含多语言（中日韩印、西欧、阿拉伯等）。 
最后我在内部4090 48G x 4的系统上尝试部署了，vllm 0.13.0 执行起来没问题。context可以给到 188000左右，perfill 2k~3k左右，decode 8...