saturn我觉得非常有必要建立一个量化AI代码软件性能的评估测试 中发帖

一般情况写代码都是用一个软件 很少来回切 并且也不可能一个功能来回几个软件全部重新写 再加上很多skills mcp 不同ide 不同模型 导致完全无法量化评估ide性能 
应该有一个固定的评测顺序,比如抽取github大仓库 fork下来 然后固定一些问题 使用相同提示词 使用不同ide+模型排列组合 然后评估修改的准确度 人为干预度 反馈轮数 次数等
现在用ide的时候感觉心里都没底 很难确认目前这个是不是最佳选择
除了模型用量会比较大以外,看起来好像也没什么难度?大家觉得这个实用吗?
🫪🫪🫪