小怪兽 (@peiyizhi)【OpenClaw模型排行】什么模型适合养龙虾? 中发帖

今早上看见 openclaw 创始人分享了一个开源项目的openlaw基准测试 

[image]


主要是以从成功率、速度、费用三个维度为主,评估 32 款主流大模型四个主要方面

工具使用情况 ——模型能否使用正确的参数调用正确的工具?
多步骤推理 ——能否将各个步骤串联起来完成复杂任务?
现实世界的混乱 ——它能否处理含糊不清的指令和不完整的信息?
实际结果 ——它是否真的创建了文件、发送电子邮件或安排了会议?


模型排行

[image]

成功率排名第一的居然是谷歌的哈基米3Flash,我以为必是cc来着
排行网站在这

pinbench 模型排行网站

佬们有兴趣也可以自己试试

pinbench基准测试开源地址