GLNCE 在 关于肥波(Fable5)模型在数学前沿方面的一个小测试(小白看不懂,请数学系大佬来看看) 中发帖
事情是这样的,昨天看到了这个贴子:
想着手上有cursor号快过期了,于是决定测试下肥波。把链接丢给肥波让他挑一个开始研究。(以下所有模型均为cursor中的max模式、最高思考强度)
他选择了这个
[图片]
[图片]
肥波兴致勃勃地干了一天一夜(其实主要是脚本计算耗时),榨干了我的额度,表示直接验证不太可能,但已经有阶段性成果,并自信满满地写了篇论文:
[图片]
这是他的成果清单:
[图片]
好家伙,果然是逼王模型。于是我交给gpt5.5xhigh审核:
1. 逐定理判定表
[图片]
[图片]
[图片]
2. 独立重算结果表
[图片]
[图片]
[图片]
3. 发现的漏洞/间隙
[图片]
4. 边界情形检查清单
[图片]
5. 总评
[图片]
然后再新开一个对话,让gpt5.5xhigh再从其他角度审核:
1. 总体结论
[图片] ...