炫彩小鱼干 (@Yuookie) 在简单回顾：折腾四天，用 CosyVoice3 制作有声书中发帖本文中的所有操作都是自然语言叙述，通过 5.3 codex 帮我部署和调试的，没有任何操作门槛，请放心实操

炫彩小鱼干 (@Yuookie) 在简单回顾：折腾四天，用 CosyVoice3 制作有声书中发帖

本文中的所有操作都是自然语言叙述，通过 5.3 codex 帮我部署和调试的，没有任何操作门槛，请放心实操。点击听全文 
配置
u9 + RTX 5060 8GB laptop 
效果
生成速度接近实时，但不够实时流式播放 
30s 音频+零微调，人声音色完美克隆，无电音 
只有句子间的吸气声稍微有些不自然 
起因
VR社的一位新成员的音色很好听，但因为直播员懒狗一条，播的时间太短了。一天不听就难受，与其反复循环那几段录播，不如直接让 AI 用这个音色给我读小说。 
模型选择
之前对 TTS 模型不太了解，先问了 Codex 有什么适合我电脑的微调模型。GPT 推荐了 GPT-SoVITS v2Pro，处理和筛选了 120 分钟的片段，训练了一个小时，结果发现这个模型的读音错误率很高，断句不自然，音色虽然很像但是电音感很重，加上这个模型已经发布了半年多，考虑到 AI 模型的迭代速度，我把目...