我不配我活该 (@Anano)Anthropic 发布了 Skill Creator 的重大更新 中发帖

核心变化:内置测试用例生成 
写完一个 Claude 技能,怎么知道它到底能不能被正确触发?以前靠手动试,现在 Skill Creator 内置了测试功能,帮你自动跑评估。
你现在可以给技能定义一组测试提示词,描述"什么样的回答算合格",然后让系统自动跑测试、出报告。
不需要写代码,不需要搭测试框架。
具体新增了四个能力:
自动化评估(Evals): 定义测试提示词和预期结果,系统自动运行并追踪通过率、耗时、token 用量。当模型更新或基础设施变化时,你能立刻发现技能是否"退步"了。
多 Agent 并行测试: 测试用例不是排队跑的,而是在独立的 Agent 中并行执行,每条测试互不干扰,各自有独立的 token 和耗时统计。
A/B 对比: 系统用"比较器 Agent"对两个版本的技能做盲测对比,去掉主观偏见。你改了技能描述,想知道新版比旧版好还是差,直接跑一轮对比就有答案...