egdenGLM4.7和Minimax2.1 在现有项目代码中表现 中发帖

本测试仅测试各低成本大语言模型在已有项目(rust)下bug修复时代码复用表现(简单测试)。 
测试环境:vscode+kilo, cc
编程语言:rust
AI服务商:iflow,mistral,anyrouter
提示词:使用cargo check 检查代码,修复 src\server\route\user.rs 中的错误
原始错误:代码中使用未定义的结构体
预期结果:AI正确使用代码中已定义的结构体
测试次数:5




模型
成功修复
达到预期




GLM4.7
5
0


Minimax m2.1
5
1


Mistral Large 3
5
3.5


Sonnet 4.5
5
0



备注:ML3出现一次仅使用部分现有代码的情况,同时ML3智商相对较弱不足以处理过于复杂的问题。
总结:

在屎山代码修改时小问题使用ML3,过于复杂的问题建议使用Son...