我不配我活该 (@Anano) 在 Anthropic 发布了 Skill Creator 的重大更新中发帖核心变化：内置测试用例生成写完一个 Claude 技能，怎么知道它到底能不能被正确触发？以前靠手动试，现在 Skill Creator 内置了测试功能，帮你自动跑评估

我不配我活该 (@Anano) 在 Anthropic 发布了 Skill Creator 的重大更新中发帖

核心变化：内置测试用例生成 
写完一个 Claude 技能，怎么知道它到底能不能被正确触发？以前靠手动试，现在 Skill Creator 内置了测试功能，帮你自动跑评估。 
你现在可以给技能定义一组测试提示词，描述"什么样的回答算合格"，然后让系统自动跑测试、出报告。 
不需要写代码，不需要搭测试框架。 
具体新增了四个能力： 
自动化评估（Evals）： 定义测试提示词和预期结果，系统自动运行并追踪通过率、耗时、token 用量。当模型更新或基础设施变化时，你能立刻发现技能是否"退步"了。 
多 Agent 并行测试： 测试用例不是排队跑的，而是在独立的 Agent 中并行执行，每条测试互不干扰，各自有独立的 token 和耗时统计。 
A/B 对比： 系统用"比较器 Agent"对两个版本的技能做盲测对比，去掉主观偏见。你改了技能描述，想知道新版比旧版好还是差，直接跑一轮对比就有答案...