LINUX DO Channel

shamiko (@Atrili) 在昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试中发帖

老登们下班了，现在可以霍霍服务器了 😤 
vllm-ascend部署文档： DeepSeek-V4 — vllm-ascend 
模型：DeepSeek-V4-Flash-w8a8-mtp · 模型库 
启动成功： 
 [image] 
先问一下洗车问题： 
[image] 
逻辑OK 
跑一下文档中的数据集(GSM8K，数学推理能力) 
[image] 
速度慢的发指 ，10个并发~290~480 tokens/s😫(毕竟只有一台机器，速度上不去) 
先去吃个饭，吃完再来看一下