黯绛 (@amlkiller)CosyVoice3 的简单量化测试 中发帖

从阿里cosyvoice3开源 拓展讨论。 
说明下测试方法,
用明日方舟的魔王干员配音台词克隆到另外一句台词,和人配音的另外一句台词相比较。对比indexTTS2 和 CosyVoice3.
以下测试音色迁移到同一句有配音的台词,和自己选的无配音的台词。
[image]
阿里自己测的对照表
统一选择快速小样本克隆的参数。


你们以为能从卡兹戴尔中得到什么?

我会与罗德岛的战士们…站在一起。
IndexTTS2


CosyVoice3


总结
效果上必然indexTTS2更好,更自然,不过CosyVoice3毕竟支持直接自然语言控制和音素法,这点断句和语气的差异用一个辅助小模型优化合成文本效果不会差哪去,加之推理速度快得多(indexTTS2在我这生成以上样本一句话1分半,CosyVoices3只需要10s左右),资源消耗更小,是个不错的选择。