@mark4 在 国内模型后端编程真实大横评!基于公司真实落地项目测试,基于模板代码作为参考 中发帖
[image]
1、测试工具和参与的模型:
统一使用 claude code 参与测试的模型:Opus4.6(max 官转,共花费 52 刀)、glm-5(官key)、MiniMax-M2.5(官 key)、kimi-k2.5(0.99 刀的订阅)
2、测试项目和环境变量说明:
仅测试后端java,基于公司已经落地生产的项目,用已有的代码,反向生成了spec文档
把整个模块的代码删除后,分三轮工程,每轮都是一次生成代码 + 一次代码审查和接口测试,加上第一次的 init,因此每个模型都是固定的 7 轮对话,和 7 次固定的提示词,共新增 11 个接口
3、测试和评比说明
a-用已经通过测试的代码作为模板代码,对比模型生成的代码做对比
b-共10个场景,31 个接口的全量回放,全量接口测试并查数据库验证落库(场景包括 分摊扣减、驳回清理、剩余分摊金额重算、版本快照和审计追溯...