小怪兽 (@peiyizhi) 在 【OpenClaw模型排行】什么模型适合养龙虾? 中发帖
今早上看见 openclaw 创始人分享了一个开源项目的openlaw基准测试
[image]
主要是以从成功率、速度、费用三个维度为主,评估 32 款主流大模型四个主要方面
工具使用情况 ——模型能否使用正确的参数调用正确的工具?
多步骤推理 ——能否将各个步骤串联起来完成复杂任务?
现实世界的混乱 ——它能否处理含糊不清的指令和不完整的信息?
实际结果 ——它是否真的创建了文件、发送电子邮件或安排了会议?
模型排行
[image]
成功率排名第一的居然是谷歌的哈基米3Flash,我以为必是cc来着
排行网站在这
pinbench 模型排行网站
佬们有兴趣也可以自己试试
pinbench基准测试开源地址