炫彩小鱼干 (@Yuookie) 在 简单回顾:折腾四天,用 CosyVoice3 制作有声书 中发帖
本文中的所有操作都是自然语言叙述,通过 5.3 codex 帮我部署和调试的,没有任何操作门槛,请放心实操。点击听全文
配置
u9 + RTX 5060 8GB laptop
效果
生成速度接近实时,但不够实时流式播放
30s 音频+零微调,人声音色完美克隆,无电音
只有句子间的吸气声稍微有些不自然
起因
VR社的一位新成员的音色很好听,但因为直播员懒狗一条,播的时间太短了。一天不听就难受,与其反复循环那几段录播,不如直接让 AI 用这个音色给我读小说。
模型选择
之前对 TTS 模型不太了解,先问了 Codex 有什么适合我电脑的微调模型。GPT 推荐了 GPT-SoVITS v2Pro,处理和筛选了 120 分钟的片段,训练了一个小时,结果发现这个模型的读音错误率很高,断句不自然,音色虽然很像但是电音感很重,加上这个模型已经发布了半年多,考虑到 AI 模型的迭代速度,我把目...