炫彩小鱼干 (@Yuookie) 在究极花瓶：配上新的草稿模型，gemma-4-31B 可达 123 tokens/s，但上下文…… 中发帖使用了谷歌最新发布的草稿模型gemma-4-31B-it-assistant，加上gemma-4-31B-it-4bit-W4A16-AWQ部署在vllm上 draft tokens开到5，代码场景123tokens/s [image] 知识问答类67tokens/s [image] [image] 只恨我的4090显存不够啊～上下文只能开到2816，没错就是2k 如果有5090就可以爽玩了

炫彩小鱼干 (@Yuookie) 在究极花瓶：配上新的草稿模型，gemma-4-31B 可达 123 tokens/s，但上下文…… 中发帖

使用了谷歌最新发布的草稿模型gemma-4-31B-it-assistant，加上gemma-4-31B-it-4bit-W4A16-AWQ部署在vllm上 
draft tokens开到5，代码场景123tokens/s 
 [image] 
知识问答类67tokens/s 
 [image] 
 [image] 
只恨我的4090显存不够啊～上下文只能开到2816，没错就是2k 
如果有5090就可以爽玩了