@nianshou 在 给 AI 分个类的话,普通人视角该怎么分?顺便求教各领域的顶流模型 中发帖
我自己分了 音声、视觉、语言 三个类型,不知道合不合理。 (不过感觉当前多模态已经把我自己分的这个界限变得模糊不清了)
如果这样分的话,又可以每个类型又可以细分一下,拿音声举例,我又分成下列的几个方面,然后让搭载着全球最大搜索引擎——谷歌搜索的美国豆包来回答。(用的是ai studio里的gemini 3.5flash,思考:high,提示词强制联网搜索)
语音合成(TTS):目前闭源比较强的是 ElevenLabs 和 MiniMax (Speech-02 HD);开源则是 Qwen3-TTS。
语音识别与转写(STT):OpenAI Whisper (Whisper-large-v3)。
声音克隆/转换: VoGen 以及开源的 F5-TTS / Fish Speech。
AI 音乐生成:Suno AI 和 Udio。
欢迎佬们来讨论。
另外,这种“音声、视觉、语言”的...