level5土拨鼠 (@giveMI5) 在 qwen3.5自部署，思考过程是英文中发帖用4张3090部署的Qwen3.5-27B,使用的命令是 CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /LLModels/Qwen/Qwen3.5-27B --served-model-name qwen --host 0.0.0.0 --port 8102 --tensor-parallel-size 4 --dtype auto --gpu-memory-utilization 0.8 --max-model-len 16384 --enable-auto-tool-choice --tool-call-parser qwen3_coder，只要开toolparse，思考过程就是英文的，目前的回答是{“id”:“chatcmpl-988b73598fc56004”,“object”:“chat.completion”,“cre...

level5土拨鼠 (@giveMI5) 在 qwen3.5自部署，思考过程是英文中发帖

用4张3090部署的Qwen3.5-27B,使用的命令是 CUDA_VISIBLE_DEVICES=0,1,2,3 vllm serve /LLModels/Qwen/Qwen3.5-27B  --served-model-name qwen  --host 0.0.0.0   --port 8102   --tensor-parallel-size 4   --dtype auto   --gpu-memory-utilization 0.8  --max-model-len 16384  --enable-auto-tool-choice --tool-call-parser qwen3_coder，只要开toolparse，思考过程就是英文的，目前的回答是{“id”:“chatcmpl-988b73598fc56004”,“object”:“chat.completion”,“cre...