Mark (@MarkHk) 在 TTS文字转语音模型咨询中发帖各位佬好，最近在做一个小玩具，场景里涉及到聊天对话，文本模型接入的是deepseek v4 flash，再接一个TTS模型转人声

Mark (@MarkHk) 在 TTS文字转语音模型咨询中发帖

各位佬好， 
最近在做一个小玩具，场景里涉及到聊天对话，文本模型接入的是deepseek v4 flash，再接一个TTS模型转人声。 
TTS目前试过本地部署的index tts 2, qwen3 tts, moss-nano 
也尝试了mimo tts 2.5 
总体感觉下来index tts 2最强，支持音色克隆，情绪控制，人声效果也很好，可惜部署要求太高，5090显卡（租的算力平台）生成都需要很长时间 
moss nano最快，但明显有ai感 
qwen3 tts慢，人声效果中等 
mimo是在线免费的，人声效果也不错，但是情感控制有些问题，经常出现一句话里都是一种情绪，或者不带情绪（情绪标签偶尔不生效？） 
后续部署是想搞一台服务器，不带gpu，所以只能跑cpu或者在线模型了🤣 
想请教各位大佬有没有什么模型推荐，或者有更好的方案🙏🙏 
三色图原理我懂的🤣  不过还是有侥幸心理。 ...