@bige0123 在 Kimi 第三方API供应商的性能测试结果更新 中发帖
慢讯11.15号更新 :
首先是Kimi-K2-Thinking的第三方API的测试结果:
[image]
注:我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为75.81%,平均分数为76%。鉴于模型的固有随机性,我们认为tool_call_f1分数高于73%是可以接受的,并可以作为参考。
然后是K2的,temperature=0.6:
[image]
我们多次运行官方API来测试tool_call_f1的波动情况。最低分数为82.71%,平均分数为84%。鉴于模型的固有随机性,我们认为tool_call_f1分数超过80%是可以接受的,并可以作为参考。