小怪兽 (@peiyizhi) 在【OpenClaw模型排行】什么模型适合养龙虾？中发帖今早上看见 openclaw 创始人分享了一个开源项目的openlaw基准测试 [image] 主要是以从成功率、速度、费用三个维度为主，评估 32 款主流大模型四个主要方面工具使用情况 ——模型能否使用正确的参数调用正确的工具？多步骤推理 ——能否将各个步骤串联起来完成复杂任务？现实世界的混乱 ——它能否处理含糊不清的指令和不完整的信息？实际结果 ——它是否真的创建了文件、发送电子邮件或安排了会议？模型排行 [image] 成功率排名第一的居然是谷歌的哈基米3Flash，我以为必是cc来着排行网站在这 pinbench 模型排行网站佬们有兴趣也可以自己试试 pinbench基准测试开源地址

小怪兽 (@peiyizhi) 在【OpenClaw模型排行】什么模型适合养龙虾？中发帖

今早上看见 openclaw 创始人分享了一个开源项目的openlaw基准测试 

 [image] 


主要是以从成功率、速度、费用三个维度为主，评估 32 款主流大模型四个主要方面 

工具使用情况 ——模型能否使用正确的参数调用正确的工具？
多步骤推理 ——能否将各个步骤串联起来完成复杂任务？
现实世界的混乱 ——它能否处理含糊不清的指令和不完整的信息？
实际结果 ——它是否真的创建了文件、发送电子邮件或安排了会议？


模型排行 

 [image] 

成功率排名第一的居然是谷歌的哈基米3Flash，我以为必是cc来着 
排行网站在这 

pinbench 模型排行网站 

佬们有兴趣也可以自己试试 

pinbench基准测试开源地址