yeyucca 在 Gemma4 12B部署体验,5090单卡，80+tokens/s 中发帖这个尺寸对单卡比较友好(5090跑有点傲娇了，后面用lnl 258v应该才是归宿)，用的是ud家的Q8_XL,速度80+tokens/s 需要说明的是，当前llama.cpp对gemma4uv不识别，导致没法用多模态，再等能，应该很快，毕竟G家这次动了编码器，L家居然没0day适配，再等等，当前给到 text就能正常跑了 [image]

yeyucca 在 Gemma4 12B部署体验,5090单卡，80+tokens/s 中发帖

这个尺寸对单卡比较友好(5090跑有点傲娇了，后面用lnl 258v应该才是归宿)，用的是ud家的Q8_XL,速度80+tokens/s 
需要说明的是，当前llama.cpp对gemma4uv不识别，导致没法用多模态，再等能，应该很快，毕竟G家这次动了编码器，L家居然没0day适配，再等等，当前给到 text就能正常跑了 
 [image]