小丸子 (@xiaowanzi)企业AI赋能案例(一):语音录入填充表单 中发帖

业务背景
制造业质检场景中,质检员在车间巡检时需要填写大量检验记录:工序名称、设备编号、检验数据、不合格描述等。车间环境嘈杂、手上可能还拿着各种工具,手动扣字输入效率极低,一张质检单填完要3-5分钟。
实现思路
整个链路分三段:

语音采集 → 浏览器 MediaRecorder / APP 原生录音,拿到音频文件
ASR 语音转文字 → 调用语音识别模型,将音频转为纯文本
LLM 结构化解析 → 将自然语言交给大语言模型,通过设计好的 prompt 指令,将口语化描述解析为表单字段对应的JSON结构,自动回填到表单

关键设计点:

prompt 中明确列出待提取字段、类型约束和返回格式,确保 LLM 输出稳定可解析
不合格类别等下拉字段,把下拉列表直接放进 prompt,让 LLM 做模糊匹配
语音回填的字段有视觉标识(绿色边框),方便质检员确认和修正
一次语音可以描述多条不合格...