@bige0123 在 Kimi 第三方API供应商的性能测试结果更新中发帖慢讯11.15号更新：首先是Kimi-K2-Thinking的第三方API的测试结果： [image] 注：我们多次运行官方API来测试tool_call_f1的波动情况

@bige0123 在 Kimi 第三方API供应商的性能测试结果更新中发帖

慢讯11.15号更新 ： 
首先是Kimi-K2-Thinking的第三方API的测试结果： 
 [image] 
注：我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为75.81%，平均分数为76%。鉴于模型的固有随机性，我们认为tool_call_f1分数高于73%是可以接受的，并可以作为参考。 
然后是K2的，temperature=0.6： 
 [image] 
我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为82.71%，平均分数为84%。鉴于模型的固有随机性，我们认为tool_call_f1分数超过80%是可以接受的，并可以作为参考。