devjony (@devocy) 在 体验了一下 Step-GUI 模型 中发帖
最近看到阶跃星辰发了一个小模型 step-guiGithub, 测试了一下这个 4b 模型在手机操作方面效果如何,顺便让它帮我过 b 站的硬核测试。
模型部署在 macmini (m4,8g) 上, 使用 ollama 运行,按照官方的文档先打包 ollama 模型文件,然后运行测试,不出意料的比较慢。继续让它过 B 站的硬核测试,没有过多的描述任务,只告诉它“完成所有答题任务”。过程中只在 84 题的时候中断一次,基本没什么问题。单步耗时都在 28 秒左右,整个过程接近 1 个小时,最后考核得分 65 分。
我比较意外的是这个参数下的模型,在知识方面其实已经有很不错的表现,而且 OCR 方面也没有出现什么错误,给出的手机操作也都是准确的。
[img_2026-03-05_17-30-07]
[img_2026-03-05_17-30-30]
随后我又测试了一下复杂一点的任务:...