@Axon多台8卡A40本地化部署模型求助 中发帖

各位大佬好,最近实验室准备部署开源大模型,目前手头可调配的硬件资源如下: 
GPU:1 到 2 台 8卡 A40(单卡 48G 显存,单台总计 384G,两台总计 768G)。
CPU 内存:每台服务器自带 1T 内存。
网络环境:实验室局域网,两台都是物理机。
想问下这个推荐本地化部署哪个大模型,最好是1台可部署的,INT4量化版本的就行。之前部署的minimax-M2.7,最近感觉有点拉