变色龙 (@bianselong) 在 单机即可部署运行 DeepSeek R1 671B 模型,浪潮信息推出元脑 R1 推理服务器 中发帖
在 FP8 精度下至少需要约 800GB 显存承载,FP16 / BF16 精度下需要 1.4TB 以上的显存空间。
此外,DeepSeek R1 是典型的长思维链模型,具有短输入、长输出的应用特点,推理解码阶段依赖更高的显存带宽和极低的通信延迟。
元脑 R1 推理服务器 NF5688G7 原生搭载 FP8 计算引擎,提供 1128GB HBM3e 显存,满足 671B 模型 FP8 精度下不低于 800GB 显存容量的需求,单机支持全量模型推理情况下,仍保留充足的 KV 缓存空间,该机的显存带宽可达 4.8TB/s。
在通信方面,GPU P2P 带宽达 900GB/s,基于最新推理框架单机可支持 20-30 用户并发。同时,单台 NF5688G7 配备 3200Gbps 无损扩展网络,可根据用户业务需求增长实现敏捷扩展,提供 R1 服务器集群 Turnkey 解决方案。
元脑 R...