@tof 在【单U单卡 DeepSeek-R1、V3的671B满血版】🤔 中发帖MoE架构需要大量的存储空间，但是并不需要很多的计算资源清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：支持24G显存在本地运行DeepSeek-R1、V3的671B满血版

@tof 在【单U单卡 DeepSeek-R1、V3的671B满血版】🤔 中发帖

MoE架构需要大量的存储空间，但是并不需要很多的计算资源 
清华大学KVCache.AI团队联合趋境科技发布的KTransformers开源项目公布更新：支持24G显存在本地运行DeepSeek-R1、V3的671B满血版。预处理速度最高达到286 tokens/s，推理生成速度最高能达到14 tokens/s。该项目的独特之处，就在于用创新的异构平台设计大大减少了GPU的用量——只需单卡，并让此前在DeepSeek加速中很少显山露水的CPU得以大放光彩。 
 [image] 
量子位 
GitHub 地址：GitHub - kvcache-ai/ktransformers: A Flexible Framework for Experiencing Cutting-edge LLM Inference Optimizations