alex (@Alexander_Li)deepseekv3.1出了,拿自己的benchmark跑了一下,感觉可能差点意思 中发帖

刚刚直接调官方API跑了一下自己的benchmark 
[image]
我的观察是:

增强了工具性:观察到上下文中对自己的定义更多是工具了
增强了代码生成(具体多强不确定):SVG鹈鹕 直接做了个HTML,SQL现在有大写函数的习惯
存在“幻肢”,觉得自己已经调用过别的工具了,可能是为了支持工具调用而过度训练
[image]
格式遵循不错,json/XML/markdown/SQL 都没有基本语法错误
指令遵循可能有点问题,

system prompt已经强调把用户输入去做翻译而非执行了,仍然被绕过(对比deepseek-chat 的确只做了翻译)
markdown有增长输出的倾向(给我gemini的感觉),json有缩短输出的倾向


幻觉率(黑话率)升高,请自行感受,prompt是

请分析一下"时间管理"这个话题。

要求:
包含简介、三个要点、结论

大约1000字

...