werous 在到底怎么才能降低Qwen3.5-35B-A3B的think啊中发帖大佬们最近用最新的gpustack2.1.2版本搭配8个L40装了Qwen3.5-35B-A3B的vllm模型

werous 在到底怎么才能降低Qwen3.5-35B-A3B的think啊中发帖

大佬们 最近用最新的gpustack2.1.2版本 搭配8个L40装了Qwen3.5-35B-A3B的vllm模型。 
官方文档说可以靠thinking_budget参数来调节思考的长度，但是根本不好使啊.. 
system角色写提示词要求它精简思考过程也不行。。。。 
没招了..