枫叶 (@fengye2)谁才是最适合OpenClaw的模型?16模型5场景 盲审实验揭示结果 中发帖

OpenClaw风靡全网,许多人上手体验后说他不够强。那么有没有可能,是使用的模型太烂~ 就像让婴儿开车,车性能再强也没有用。本次实验中,选取了16款模型,在5个仿真场景中使用~5,000 tokens 的生产级 System Prompt(注入模型性格设定、记忆库与世界观),在六个认知维度下的表现。 叠甲时间:本文内容仅反映本次测试中所使用的16个模型在特定网络请求条件下的表现。在不同请求参数(如 temperature 等)或不同环境条件下,模型的实际表现可能存在差异。此外,为了便于测试,本次实验通过第三方 API 进行调用。第三方 API 的转接、网络环境或实现方式均可能对实验结果产生一定影响。因此,作者不保证测试结果在其他环境或条件下具有一致性。本次测试仅基于个人兴趣进行,部分参数设置可能存在一定主观偏向,且测试覆盖的场景较为有限,无法全面代表各大模型在所有应用场景中的综合能力。 
...