cedric chen (@cedricthecoder) 在佬友们如何评价一个code agent的好坏（基座模型相同的前提下），目前的benchmark局限性太多中发帖抛砖引玉在长时间深度使用多种code agent之后（开源的：Cline, Kilo Code，闭源的：Claude Code, Cursor, Augment Code, Kiro, Qodo, Droid 国内的：Trae, Code Buddy, Qwen Code … ）这里有的是原生AI ide, 有的是插件，有的是Cli，种类可谓五花八门

cedric chen (@cedricthecoder) 在佬友们如何评价一个code agent的好坏（基座模型相同的前提下），目前的benchmark局限性太多中发帖

抛砖引玉 
在长时间深度使用多种code agent之后（开源的：Cline, Kilo Code，闭源的：Claude Code, Cursor, Augment Code, Kiro, Qodo, Droid 国内的：Trae, Code Buddy, Qwen Code … ） 
这里有的是原生AI ide, 有的是插件，有的是Cli，种类可谓五花八门。 
目前感受比较明显的是两方面：工具调用成功率, 读取代码片段准确率（防止上下文腐烂）。这两点在不同agent下差距非常大，甚至同一个插件在Jetbrains和vscode上的表现都差很多。