alex (@Alexander_Li) 在 deepseekv3.1出了，拿自己的benchmark跑了一下，感觉可能差点意思中发帖刚刚直接调官方API跑了一下自己的benchmark [image] 我的观察是：增强了工具性：观察到上下文中对自己的定义更多是工具了增强了代码生成（具体多强不确定）：SVG鹈鹕直接做了个HTML，SQL现在有大写函数的习惯存在“幻肢”，觉得自己已经调用过别的工具了，可能是为了支持工具调用而过度训练 [image]格式遵循不错，json/XML/markdown/SQL 都没有基本语法错误指令遵循可能有点问题，system prompt已经强调把用户输入去做翻译而非执行了，仍然被绕过（对比deepseek-chat 的确只做了翻译）markdown有增长输出的倾向（给我gemini的感觉），json有缩短输出的倾向幻觉率(黑话率)升高，请自行感受，prompt是请分析一下"时间管理"这个话题

alex (@Alexander_Li) 在 deepseekv3.1出了，拿自己的benchmark跑了一下，感觉可能差点意思中发帖

刚刚直接调官方API跑了一下自己的benchmark 
 [image] 
我的观察是： 

增强了工具性：观察到上下文中对自己的定义更多是工具了
增强了代码生成（具体多强不确定）：SVG鹈鹕 直接做了个HTML，SQL现在有大写函数的习惯
存在“幻肢”，觉得自己已经调用过别的工具了，可能是为了支持工具调用而过度训练 
[image]
格式遵循不错，json/XML/markdown/SQL 都没有基本语法错误
指令遵循可能有点问题，

system prompt已经强调把用户输入去做翻译而非执行了，仍然被绕过（对比deepseek-chat 的确只做了翻译）
markdown有增长输出的倾向（给我gemini的感觉），json有缩短输出的倾向


幻觉率(黑话率)升高，请自行感受，prompt是

请分析一下"时间管理"这个话题。

要求：
包含简介、三个要点、结论

大约1000字

 ...