@HCPTangHY 在 智谱联合TileRT推出GLM-5.1高速版API,输出速度达每秒400 tokens 中发帖
智谱GLM团队联合TileRT团队于今天正式推出了GLM-5.1高速版API(GLM-5.1-highspeed),其模型输出速度达到每秒400 tokens,刷新了当前全球大模型厂商API的速度上限。该服务目前已面向智谱MaaS平台的部分企业客户开放,主要用于解决AI编程、实时交互以及实时语音等对响应延迟要求极高的生产场景痛点。
[640]
与过往通过缩减模型体积来换取速度的轻量级模型不同,GLM-5.1高速版在完整保留旗舰级大语言模型能力的前提下实现了极低延迟,打破了行业中高性能与低延迟不可兼得的惯例。在实际工程测试中,该模型在长程任务中表现出极高的实时协作能力,不仅能在30秒内完成复杂网页处理,还支持在多智能体协同场景下瞬间调度50个不同人格并行回答。在代码开发、3D地图瞬时建模等高频交互场景中,该模型能够实现即问即答的无缝反馈。
这一速度突破的核心在于双方联合打造的TileR...