Maker毕 (@makerbi) 在请教一下能用 ktransformers 框架做推理的国产硬件推理服务器配置中发帖请教一下各位关于国产信创硬件的方案

Maker毕 (@makerbi) 在请教一下能用 ktransformers 框架做推理的国产硬件推理服务器配置中发帖

请教一下各位关于国产信创硬件的方案。我的目标是可以用少量（单卡或双卡）国产GPU搭配大体积内存，达到使用 ktransformers 框架进行大语言模型推理大参数量的大语言模型如 MiniMaxAI/MiniMax-M2.1 的效果，即激活参数放显卡，其它卸载到内存的。无高并发要求，最多3个并发就可以了，单并发的 TPS 最好能达到 10 tokens/s 以上。 
主要是我们客户只能用信创方案，我对硬件实在是不太熟悉，不知道目前哪些硬件方案可以实现以及价格一般是多少的。先谢过各位了！ 
另外补一嘴，之所以希望用 ktransformers 架构就是希望尽可能压低硬件成本的，像华为 8卡 910B 这种方案就不考虑了。