@HCPTangHY 在 Claude Fable 5测评:超级安全的错字大模型 中发帖
[image]
放一些案例
[image]
[image]
[image]
[image]
每个都让人感叹 国模,你在哪 几乎都是满分答案
那问题在哪呢
[image]
[image]
[image]
这个问题和
中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了,马上去改。但在实际agent中我觉得相对致命,特别是价格翻倍了,分词器也翻倍了的情况下
实际日用Agent体验就是,太安全了,什么都给你拒绝
[image]
谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。
原版mythos不仅没有这么厚的安全截断,而且也根本不存在错字问题。我的倾向是,原版mythos,mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的,但同时也把底模的问题都带过来了
唉,A出 ...