@tof【单U单卡 DeepSeek-R1、V3的671B满血版】🤔 中发帖

MoE架构需要大量的存储空间,但是并不需要很多的计算资源 
清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新:支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s,推理生成速度最高能达到14 tokens/s。该项目的独特之处,就在于用创新的异构平台设计大大减少了GPU的用量——只需单卡,并让此前在DeepSeek加速中很少显山露水的CPU得以大放光彩。
[image]
量子位
GitHub 地址:GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations