@UzkiS 在大佬们本地双卡3080都是如何部署大模型的？中发帖双卡3080 20G，打算用docker部署AWQ的Qwen27b或者35b,都是让opencode来配,遇到点问题一开始打算用vllm，但是无论27b还是35b，openclaw多轮对话后都会从100t/s 50t/s掉到2-3t/s 然后打算用sglang,结果是我无论用什么AWQ模型都拉不起来，我很郁闷 llama.cpp好像能跑吧 openclaw虽然也会掉速但是多轮对话至少是能稳定在10-20t/s,但是考虑到并发我不是很想选他大伙们有实操案例吗我折腾好几天了 😥

@UzkiS 在大佬们本地双卡3080都是如何部署大模型的？中发帖

双卡3080 20G，打算用docker部署AWQ的Qwen27b或者35b,都是让opencode来配,遇到点问题 
一开始打算用vllm，但是无论27b还是35b，openclaw多轮对话后都会从100t/s 50t/s掉到2-3t/s 
然后打算用sglang,结果是我无论用什么AWQ模型都拉不起来，我很郁闷 
llama.cpp好像能跑吧 openclaw虽然也会掉速 但是多轮对话至少是能稳定在10-20t/s,但是考虑到并发我不是很想选他 
大伙们有实操案例吗 我折腾好几天了 😥