Xlous2333 在 本地运行Gemma 4实录 中发帖
闲来无聊,想在我的办公老机上试试Gemma4,对于办公无网环境还是有不少用处的,毕竟不是什么事都需要顶级模型。
我跑通的是unsloth/gemma-4-26B-A4B-it-qat-UD-Q4_K_XL F16精度,带视觉推理
先介绍一下运行环境:
硬件:购置于2018年的炫龙DD2游戏本,配置为i5-8400 | 16G | GTX1050Ti 4G(Laptop) | 128G固态+1T机械硬盘,加装过1根DDR4内存条,运行频率2400MHz
软件:Windows10 LTSC,安装了CUDA 12.4,以及对应版本的llama.app
为了能够兼顾能力和速度,我先后试了Google官方发的量化版12B、26B-A4B,最后找到了unsloth的微调版,主要在于其MTP运行能再降低一些压力,提高速度(虽然目前跑下来还是只有5~7token/s)
以下是跑对话的截图:
...