@leonardo_shen 在原本以为livebench是比较接近实际体验的榜单中发帖QWQ排名比deepseek还靠前，可是实际体验后，我觉得无论是理解能力还是编程，QWQ都比deepseek弱

@leonardo_shen 在原本以为livebench是比较接近实际体验的榜单中发帖

QWQ排名比deepseek还靠前，可是实际体验后，我觉得无论是理解能力还是编程，QWQ都比deepseek弱。 
我个人感觉，推理类小模型的“能力”基本够了（具体我不知道怎么形容），但是知识的“广泛性”远远不够，如果能给QWQ这类模型挂载一个真正意义上的记忆体（不是agent或者rag那些）就好了，将记忆放在硬盘而不是内存里，要用的时候就像人类查资料一样读取，不会的就说不会，而不是产生一大堆幻觉。