@Sokeu 在 [转]月面官测-不同API供应商K2模型ToolCalling能力差异中发帖[MoonshotAI/K2-Vendor-Verifier: Verify Precision of all Kimi K2 API [image] 简单来说排名越靠上越好

@Sokeu 在 [转]月面官测-不同API供应商K2模型ToolCalling能力差异中发帖

[MoonshotAI/K2-Vendor-Verifier: Verify Precision of all Kimi K2 API 
 [image] 
简单来说排名越靠上越好。 
测试方法和几个指标的猜想： 

月面准备了4000个案例
在官方API测试上，产生了1286次工具调用，且1286次工具调用全部成功了。
在其他API上测试，可以看下Finish Reason为Tool Calls的计数和错误计数两个指标，可以看到有些API供应商部署的K2不爱调用工具，还有一些在调用工具的时候哐哐报错。

结论 
月面：买我家的API。 
当你觉得开源模型的工具调用能力差时，先远离下面那几家供应商。 🤡