@Sokeu[转]月面官测-不同API供应商K2模型ToolCalling能力差异 中发帖

[MoonshotAI/K2-Vendor-Verifier: Verify Precision of all Kimi K2 API 
[image]
简单来说排名越靠上越好。
测试方法和几个指标的猜想:

月面准备了4000个案例
在官方API测试上,产生了1286次工具调用,且1286次工具调用全部成功了。
在其他API上测试,可以看下Finish Reason为Tool Calls的计数和错误计数两个指标,可以看到有些API供应商部署的K2不爱调用工具,还有一些在调用工具的时候哐哐报错。

结论
月面:买我家的API。
当你觉得开源模型的工具调用能力差时,先远离下面那几家供应商。 🤡