saturn 在我觉得非常有必要建立一个量化AI代码软件性能的评估测试中发帖一般情况写代码都是用一个软件很少来回切并且也不可能一个功能来回几个软件全部重新写再加上很多skills mcp 不同ide 不同模型导致完全无法量化评估ide性能应该有一个固定的评测顺序，比如抽取github大仓库 fork下来然后固定一些问题使用相同提示词使用不同ide+模型排列组合然后评估修改的准确度人为干预度反馈轮数次数等现在用ide的时候感觉心里都没底很难确认目前这个是不是最佳选择除了模型用量会比较大以外，看起来好像也没什么难度？大家觉得这个实用吗？ 🫪🫪🫪

saturn 在我觉得非常有必要建立一个量化AI代码软件性能的评估测试中发帖

一般情况写代码都是用一个软件 很少来回切 并且也不可能一个功能来回几个软件全部重新写 再加上很多skills mcp 不同ide 不同模型 导致完全无法量化评估ide性能 
应该有一个固定的评测顺序，比如抽取github大仓库 fork下来 然后固定一些问题 使用相同提示词 使用不同ide+模型排列组合 然后评估修改的准确度 人为干预度 反馈轮数 次数等 
现在用ide的时候感觉心里都没底 很难确认目前这个是不是最佳选择 
除了模型用量会比较大以外，看起来好像也没什么难度？大家觉得这个实用吗？ 
🫪🫪🫪