@HCPTangHY 在 Claude Fable 5测评：超级安全的错字大模型中发帖[image] 放一些案例 [image] [image] [image] [image] 每个都让人感叹国模，你在哪几乎都是满分答案那问题在哪呢 [image] [image] [image] 这个问题和中4.8的问题一样错字吞空格导致程序报错

@HCPTangHY 在 Claude Fable 5测评：超级安全的错字大模型中发帖

[image] 
放一些案例 
[image] 
[image] 
[image] 
[image] 
每个都让人感叹 国模，你在哪 几乎都是满分答案 
那问题在哪呢 
[image] 
[image] 
[image] 
这个问题和 

中4.8的问题一样 错字 吞空格导致程序报错。而且依旧是知道自己写错了，马上去改。但在实际agent中我觉得相对致命，特别是价格翻倍了，分词器也翻倍了的情况下 
实际日用Agent体验就是，太安全了，什么都给你拒绝 
 [image] 
谁不想急头白脸一晚上吃一万个赛博安全拒绝呢。 
原版mythos不仅没有这么厚的安全截断，而且也根本不存在错字问题。我的倾向是，原版mythos，mythos-5/fable-5其实是对4.6/4.8的DeepThink特化训练。以超长思考和agent换取性能。事实证明做到的，但同时也把底模的问题都带过来了 
唉，A出 ...