devjony (@devocy) 在体验了一下 Step-GUI 模型中发帖最近看到阶跃星辰发了一个小模型 step-guiGithub, 测试了一下这个 4b 模型在手机操作方面效果如何，顺便让它帮我过 b 站的硬核测试

devjony (@devocy) 在体验了一下 Step-GUI 模型中发帖

最近看到阶跃星辰发了一个小模型 step-guiGithub, 测试了一下这个 4b 模型在手机操作方面效果如何，顺便让它帮我过 b 站的硬核测试。 
模型部署在 macmini (m4,8g) 上, 使用 ollama 运行，按照官方的文档先打包 ollama 模型文件，然后运行测试，不出意料的比较慢。继续让它过 B 站的硬核测试，没有过多的描述任务，只告诉它“完成所有答题任务”。过程中只在 84 题的时候中断一次，基本没什么问题。单步耗时都在 28 秒左右，整个过程接近 1 个小时，最后考核得分 65 分。 
我比较意外的是这个参数下的模型，在知识方面其实已经有很不错的表现，而且 OCR 方面也没有出现什么错误，给出的手机操作也都是准确的。 
 [img_2026-03-05_17-30-07] 
[img_2026-03-05_17-30-30] 
随后我又测试了一下复杂一点的任务：...