darkstarrd最近新出的两个音频合成的都相当能打啊 Qwen3-TTS 和 HeartMuLa 中发帖

Qwen3这个应该不怎么适合用来实时,速度有点慢,不过一致性挺好的 
跨语言音色克隆试了下还是不怎么行,要稳还是同语种比较好
HeartMula支持多国语言合成,效果相当能打,就是缺少一个限制长度的机制
现在只能多给点时间之后自己剪,超出的部分似乎是又从头
如果时间不给足会之间中断