pangbo 在本地部署全精度 gemma-4-31B-it 中发帖刚发现vllm和transformers都更新了gemma4支持，火速来尝鲜安装过程遇到一些小坑，transformers已经把新版本推送到了pypi上，但是vllm只是合并了pr，没有发版，所以要从github源码构建，构建出来又遇到了cuda链接的问题，最后让gpt帮我修好了我这里下载的google发布的原始版本google/gemma-4-31B-it，大约要下载60G文件，仅加载模型参数大约需要58G显存，90G显存勉强够20w上下文同时vllm需要手动开一下思考和工具调用支持： CUDA_VISIBLE_DEVICES=2 vllm serve "google/gemma-4-31B-it" \ --host 127.0.0.1 \ --port 8000 \ --max-model-len 200000 \ --gpu-memory-utiliza...

pangbo 在本地部署全精度 gemma-4-31B-it 中发帖

刚发现vllm和transformers都更新了gemma4支持，火速来尝鲜 
安装过程遇到一些小坑，transformers已经把新版本推送到了pypi上，但是vllm只是合并了pr，没有发版，所以要从github源码构建，构建出来又遇到了cuda链接的问题，最后让gpt帮我修好了 
我这里下载的google发布的原始版本google/gemma-4-31B-it，大约要下载60G文件，仅加载模型参数大约需要58G显存，90G显存勉强够20w上下文 
同时vllm需要手动开一下思考和工具调用支持： 
CUDA_VISIBLE_DEVICES=2 vllm serve "google/gemma-4-31B-it" \
  --host 127.0.0.1 \
  --port 8000 \
  --max-model-len 200000 \
  --gpu-memory-utiliza...