@nianshou 在给 AI 分个类的话，普通人视角该怎么分？顺便求教各领域的顶流模型中发帖我自己分了音声、视觉、语言三个类型，不知道合不合理

@nianshou 在给 AI 分个类的话，普通人视角该怎么分？顺便求教各领域的顶流模型中发帖

我自己分了 音声、视觉、语言 三个类型，不知道合不合理。 🫪(不过感觉当前多模态已经把我自己分的这个界限变得模糊不清了) 
如果这样分的话，又可以每个类型又可以细分一下，拿音声举例，我又分成下列的几个方面，然后让搭载着全球最大搜索引擎——谷歌搜索的美国豆包来回答。(用的是ai studio里的gemini 3.5flash，思考：high，提示词强制联网搜索) 


语音合成（TTS）：目前闭源比较强的是 ElevenLabs 和 MiniMax (Speech-02 HD)；开源则是 Qwen3-TTS。
语音识别与转写（STT）：OpenAI Whisper (Whisper-large-v3)。
声音克隆/转换： VoGen 以及开源的 F5-TTS / Fish Speech。
AI 音乐生成：Suno AI 和 Udio。


欢迎佬们来讨论。 
另外，这种“音声、视觉、语言”的...