Maker毕 (@makerbi)请教一下能用 ktransformers 框架做推理的国产硬件推理服务器配置 中发帖

请教一下各位关于国产信创硬件的方案。我的目标是可以用少量(单卡或双卡)国产GPU搭配大体积内存,达到使用 ktransformers 框架进行大语言模型推理大参数量的大语言模型如 MiniMaxAI/MiniMax-M2.1 的效果,即激活参数放显卡,其它卸载到内存的。无高并发要求,最多3个并发就可以了,单并发的 TPS 最好能达到 10 tokens/s 以上。 
主要是我们客户只能用信创方案,我对硬件实在是不太熟悉,不知道目前哪些硬件方案可以实现以及价格一般是多少的。先谢过各位了!
另外补一嘴,之所以希望用 ktransformers 架构就是希望尽可能压低硬件成本的,像华为 8卡 910B 这种方案就不考虑了。