LF83 (@configA) 在 请教关于本地部署大模型降低首字延迟的问题 中发帖
在本地部署的模型若运行在性能较弱的硬件上,往往会出现处理提示词(prompt)较慢的情况,导致首字输出延迟明显。若将这种模型应用于智能音箱等交互式场景,体验会受到较大影响。下面是我的一种设想请佬友们判断技术上能否实现:
唤醒词检测后立即送入系统提示词
当音箱检测到唤醒词(例如 “小爱同学”)时,立刻将预先设定好的系统提示词(system prompt)发送给本地的大语言模型(LLM)进行前置处理。这样可以在用户真正开始说话之前,提前完成一次模型的前向计算,预热模型状态。
增量语音转写(流式 ASR)同步送入 LLM
在说话的过程中,音箱流式自动语音识别(ASR)技术,将实时产生的文字增量(partial transcription)不断推送给同一个 LLM。模型在收到每段增量文本后,继续基于已有的上下文生成响应,而不必等到整句结束后才开始推理。
整体响应流程
唤醒...