tzvat6 在 论 Roo Code 等 Agent 编程工具内置大量 System Prompt 对模型生成效果的影响 中发帖
前言
起因:Roo Code、Aider 对于模型评测排行结果差异较大,引发好奇
猜想:造成不同结果的变量可能有:评测题,内置提示词,其他因素
Cursor Agent、Roo code、Cline,为了让模型听话(使用工具、按照指定格式输出等),都有巨长的内置 system prompt。
虽然这些 prompt 都是和编程相关的,但是否会对模型输出效果产生影响?是更好还是更差?
试试就知道了
测试详情
测试模型:均为 oaipro/claude-3-7-sonnet-20250219
启用 thinking
max_tokens: 32000
温度 0.1
A 组:Cherry Studio——无预置提示词——思考长度 长(80%?)
B 组:Roo Code————code模式预置——思考长度 20480
测试题:经典天气题,分两次对话
▶
prompt...