李成蹊 (@davy) 在 livebench将重跑qwq 32b,据说成绩将会大幅提高,甚至超过deepseek R1 中发帖
qwen团队联系了livebench团队,请他们优化参数后再跑一次,livebench已经同意重跑了。github上有人跑过了,成绩超过deepseek R1。
[image]
[image]