Mark (@MarkHk)TTS文字转语音模型咨询 中发帖

各位佬好, 
最近在做一个小玩具,场景里涉及到聊天对话,文本模型接入的是deepseek v4 flash,再接一个TTS模型转人声。
TTS目前试过本地部署的index tts 2, qwen3 tts, moss-nano
也尝试了mimo tts 2.5
总体感觉下来index tts 2最强,支持音色克隆,情绪控制,人声效果也很好,可惜部署要求太高,5090显卡(租的算力平台)生成都需要很长时间
moss nano最快,但明显有ai感
qwen3 tts慢,人声效果中等
mimo是在线免费的,人声效果也不错,但是情感控制有些问题,经常出现一句话里都是一种情绪,或者不带情绪(情绪标签偶尔不生效?)
后续部署是想搞一台服务器,不带gpu,所以只能跑cpu或者在线模型了🤣
想请教各位大佬有没有什么模型推荐,或者有更好的方案🙏🙏
三色图原理我懂的🤣 不过还是有侥幸心理。 ...