庆喜🌷 (@quiiiii) 在 智谱GLM降智?乱码、生僻字、循环……已通过工程修复解决! 中发帖
自 3 月起,我们在 GLM-5 的线上监控和用户反馈中观察到三类异常现象:
乱码(garbled output)、复读(repetition),以及生僻字(rare character)。
大家常称之为 “降智”。
但由于我们并没有上线任何降低模型精度的优化,
所以问题变得扑朔迷离了起来。
我们需要明确:异常究竟源于模型本身,还是源于推理链路?
这个问题经过数周的推演、排查与压测,
最终定位并修复了几个相互独立的底层竞态 Bug,
并对其中所反映的系统瓶颈进行了针对性优化,
显著提高了推理系统的稳定性和效率。
问题的发现和解决依托于社区开发者的互动,
我们向开发者有奖征集了一百余个case,用于前期定位问题,
也就是文档中的第一步:
排查初期,我们先对用户反馈的 bad cases 做本地回放,并将同一批请求重复推理数百次,但始终未能复现异常,说明大概率不是...