@kanhao100现在最强的Realtime(Live)模型有哪些? 中发帖

需求是: 
某个应用需要语音输入,对于延迟有着极高的要求,流式语音输入最后一个字说完后能在 1 秒内 返回结果,不需要语音返回,文本返回就行了。
OpenAI,今年似乎没有新的这类模型发布?
gpt-4o-mini-realtime-preview-2024-12-17
gpt-4o-realtime-preview-2024-12-17
还没试过,不清楚体验如何
Google Gemini 2.5 Flash Live :网络问题导致延迟较大,延迟还是很大,最慢需要七八秒才能返回
Doubao Realtime (豆包端到端实时语音) : 速度很快,几乎是实时的,但是吐词太少了,每次只能返回50个词左右。我要需要返回120-150词的回答每次
还有其它大模型能实现类似需求的吗?谁还有主意?