@Daster目前即时语音交互还没有真正意义上的强模型 中发帖

gpt,Gemini,claude,还有Grok都有语音交互模式,但是他们的语音模式背后模型都是lite版本很笨,比如官方说4o多模态,实际上在视频或者语音通话时,调用的是微调的4o-mini。智能级别和对话模型完全不能比。或者像claude智力足够但拿转码模型转tts给llm,延迟还是不能接受 
最近一直在关注sesame这种原生的即时语音交互模型,感觉市面上缺一款在即时语音上聪明的AI