@yyyzl【开源】按住说话-WIN平台语音输入转文本小工具(qwen-asr-flash驱动,支持自定义润色) 中发帖

源码地址
yyyzl/push-2-talk: 按住说话
界面截图
功能介绍
PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以按住 Ctrl+Win 说话,松开后应用会自动将你的语音转为文字,并根据你的设定进行润色、翻译或整理成邮件,最后自动粘贴到当前光标位置。
语音转文本由qwen-asr-flash驱动,当耗时较长时,采用SiliconFlow的SenseVoice作为备用驱动
文本润色兼容openai格式
核心特性

支持实时流式转录/HTTP转录 - 支持 WebSocket 边录边传,极低延迟,松手即出字。
🧠 LLM 智能后处理 - 内置 “文本润色”、“邮件整理”、“中译英” 等预设,支持自定义 Prompt。
🎤 全局快捷键 - 在任何应用中(包括全屏游戏或 IDE)按住 Ctrl+...