BHznJNs成功把大模型接到我的 STT 应用里了 中发帖

STT 模型是 SenseVoice.cpp,LLM 是 Gemini 2.5 Flash,测试下来从录音完成到返回第一个词的时间差不多是三秒半。其它大模型还没有测试过。 
给几个优化前后的实例:
Transcribed text: [' 先说个长南句子,比如说什么。']
Optimized text: ['先 说个', '超长难句子,比如说。']

Transcribed text: [' 我的手机号是1390175转2024。', '呃,括号内风机008。']
Optimized text: ['我的', '手机号是1390175转2024。', '呃', ',括号内分机008。']

Transcribed text: [' 英文夹杂。', '哎。', 'API调用返回了HTTP404note found。', '说明URL拼写错误,需要检查jason里的user IDD字度。']...