@HCPTangHY 在 xAI发布Grok语音API:以极低延迟与价格优势重构实时语音市场 中发帖
xAI正式面向全球开发者推出Grok语音智能体API。该接口基于xAI全栈自研技术,此前已在数百万辆特斯拉汽车及Grok移动端应用中完成验证。此次开放旨在让第三方开发者构建具备多语言流利度、实时数据检索以及外部工具调用能力的智能语音助手。
在核心性能方面,Grok语音由于采用了从零自研的音频模型与基础架构,在衡量复杂问题解决能力的“Big Bench Audio”音频推理基准测试中位列第一。其响应时间(首字音频输出)被压缩至1秒以内,速度远超当前市场竞品。该模型支持数十种语言的母语级发音,并能在对话中无缝切换语言。在与OpenAI实时API的人类盲测对比中,Grok在发音、口音及声调自然度等维度均占据优势,并支持通过提示词触发耳语、叹气、笑声等拟人化情绪表达。
在商业化落地与生态拓展上,Grok语音API采取了极具侵略性的定价策略,以每分钟0.05美元的固定费率计费,成本仅为行业主流竞...