进击的 mmmlll (@Miao0708) 在 【skills 评测】编写 claude skills 后如何进行评测整体 claude code 对 skill的指令遵循,不同场景下任务的成功率 中发帖
skills 评测这块佬友们有研究过吗,我想做一个工作任务流 的 skill ,测试下来发现不同场景表现不同,有些场景指令遵循存在不可控性,生成结果也不可控,出现一个例外场景,我会针对性分析错误然后改进一下提示词。我的想法是看下有没有专门的任务评测,达到一定成功率就不再调整了