Bunn (@BunnHack) 在 微软 Azure ND GB300 再创记录:每秒推理速度达 110 万token 中发帖
微软近日宣布,其 Azure ND GB300v6虚拟机在 Meta 的 Llama270B 模型上实现了每秒推理速度达110万token的行业新纪录。微软首席执行官萨提亚・纳德拉在社交媒体上表示:“这一成就是我们与英伟达长期合作和在生产规模运行人工智能方面专业知识的结晶。
[17622487016573036322401747711327]
Azure ND GB300虚拟机采用英伟达的 Blackwell Ultra GPU,具体为 NVIDIA GB300NVL72系统,配置了72个 NVIDIA Blackwell Ultra GPU 和36个 NVIDIA Grace CPU,采用单机架构设计。这款虚拟机专为推理工作负载优化,具有50% 的 GPU 内存提升和16% 的热设计功率(TDP)提高。
为了验证性能提升,微软在一个 NVIDIA GB300NVL72域下的18台...