@leonardo_shen原本以为livebench是比较接近实际体验的榜单 中发帖

QWQ排名比deepseek还靠前,可是实际体验后,我觉得无论是理解能力还是编程,QWQ都比deepseek弱。 
我个人感觉,推理类小模型的“能力”基本够了(具体我不知道怎么形容),但是知识的“广泛性”远远不够,如果能给QWQ这类模型挂载一个真正意义上的记忆体(不是agent或者rag那些)就好了,将记忆放在硬盘而不是内存里,要用的时候就像人类查资料一样读取,不会的就说不会,而不是产生一大堆幻觉。