@gmh 在用Opus4.6还是4.8？中发帖RT 昨天刷到帖子，以为Claude Cowork可以卡bug用Fable（今天显示是Sonnet），用的过程中顺便测了糖果降智题 [image] 虽然第一次回答29，提醒它答错了，就能答出正确答案21； [image] 然后到Claude chat里测试，Opus4.8 Max和Sonnet4.6 Max，连续提醒2次，都非常自信地坚持29，反倒是Opus4.6 Max，1次就能回答对21（测了2次都是如此），这些测试我每个都测了2～3遍 [image] 想起来我6月6日也测过，也基本上是上面的情况，Opus4.8答不对，Opus4.6一次答对、或者让其revise，就能答出正确答案21 [image] 所以现在Opus4.8到底能不能用？继续用Opus4.6？这个降智测试题是否能反应模型问题？有没有佬友对这个问题有研究？

@gmh 在用Opus4.6还是4.8？中发帖

RT 
昨天刷到帖子，以为Claude Cowork可以卡bug用Fable（今天显示是Sonnet），用的过程中顺便测了糖果降智题 
 [image] 
虽然第一次回答29，提醒它答错了，就能答出正确答案21； 
 [image] 
然后到Claude chat里测试，Opus4.8 Max和Sonnet4.6 Max，连续提醒2次，都非常自信地坚持29，反倒是Opus4.6 Max，1次就能回答对21（测了2次都是如此），这些测试我每个都测了2～3遍 
 [image] 
想起来我6月6日也测过，也基本上是上面的情况，Opus4.8答不对，Opus4.6一次答对、或者让其revise，就能答出正确答案21 
 [image] 
所以现在Opus4.8到底能不能用？继续用Opus4.6？这个降智测试题是否能反应模型问题？有没有佬友对这个问题有研究？