@gmh用Opus4.6还是4.8? 中发帖

RT 
昨天刷到帖子,以为Claude Cowork可以卡bug用Fable(今天显示是Sonnet),用的过程中顺便测了糖果降智题
[image]
虽然第一次回答29,提醒它答错了,就能答出正确答案21;
[image]
然后到Claude chat里测试,Opus4.8 Max和Sonnet4.6 Max,连续提醒2次,都非常自信地坚持29,反倒是Opus4.6 Max,1次就能回答对21(测了2次都是如此),这些测试我每个都测了2~3遍
[image]
想起来我6月6日也测过,也基本上是上面的情况,Opus4.8答不对,Opus4.6一次答对、或者让其revise,就能答出正确答案21
[image]
所以现在Opus4.8到底能不能用?继续用Opus4.6?这个降智测试题是否能反应模型问题?有没有佬友对这个问题有研究?