cabudon 在 为什么最新开源的GLM-ASR-Nano-2512无法媲美B站自带语音字幕识别 中发帖
靠glm-4.6非思考搭好了,现在代码问题不太用deepseek了,还是glm代码知识更丰富,不行再找gemini
然后python真心推荐用vscode,pycharm太大了
[image]
我继续测试时,发现还是不够丰富,职务类犯罪这个词没有,可是B站的ai识别却有。我也不知道是否会出现B站ai语音识别不行,而这个可以的情况。
[image]
[image]
官网文档说是支持自定义词典的,不过我不知道这个开源的能不能配、怎么配,能配的话就是t1变成t0https://docs.bigmodel.cn/cn/guide/models/sound-and-video/glm-asr-2512
[image]
这次算是语音识别模型开源第一了吧,不过之前一些开源我没了解,但是比whisper好,前段时间那个生图模型很惊艳,z-image还以为又是智谱的,结果是阿里取名有...