yeyuccaGemma4 12B部署体验,5090单卡,80+tokens/s 中发帖

这个尺寸对单卡比较友好(5090跑有点傲娇了,后面用lnl 258v应该才是归宿),用的是ud家的Q8_XL,速度80+tokens/s 
需要说明的是,当前llama.cpp对gemma4uv不识别,导致没法用多模态,再等能,应该很快,毕竟G家这次动了编码器,L家居然没0day适配,再等等,当前给到 text就能正常跑了
[image]