pangbo本地部署全精度 gemma-4-31B-it 中发帖

刚发现vllm和transformers都更新了gemma4支持,火速来尝鲜 
安装过程遇到一些小坑,transformers已经把新版本推送到了pypi上,但是vllm只是合并了pr,没有发版,所以要从github源码构建,构建出来又遇到了cuda链接的问题,最后让gpt帮我修好了
我这里下载的google发布的原始版本google/gemma-4-31B-it,大约要下载60G文件,仅加载模型参数大约需要58G显存,90G显存勉强够20w上下文
同时vllm需要手动开一下思考和工具调用支持:
CUDA_VISIBLE_DEVICES=2 vllm serve "google/gemma-4-31B-it" \
--host 127.0.0.1 \
--port 8000 \
--max-model-len 200000 \
--gpu-memory-utiliza...