lzl 在 搭建本地的 ChatGPT 高级语音互动系统 中发帖
1. 我的体验
今天我试了 ChatGPT 的高级语音功能,整体感觉非常自然顺畅。
2. 开始搭建我自己的语音系统
受到这个体验的启发,我决定自己动手搭建一个本地版本的。在 ChatGPT 的帮助下写了一个 Python 脚本,可以从音频文件生成回复。
语音转文字(STT):用的 faster-whisper-server,它能在大约 3 秒内将 10 秒的音频文件转成文本。(largev3模型)
大模型部分:将文本输入 Ollama 后端,使用的是 Gemma:2B 模型。它给出的响应几乎是瞬时的,没有任何延迟(模型加载完成后)
以下是运行脚本的输出:
(llm) ➜ voiceAssistant git:(master) ✗ time python pipeline.py
Transcription: Who are you
Response from gemma2:2b:...