shamiko (@Atrili)昇腾910B本地部署DeepSeek-V4-Flash(w8a8量化版)测试 中发帖

老登们下班了,现在可以霍霍服务器了 😤 
vllm-ascend部署文档: DeepSeek-V4 — vllm-ascend
模型:DeepSeek-V4-Flash-w8a8-mtp · 模型库
启动成功:
[image]
先问一下洗车问题:
[image]
逻辑OK
跑一下文档中的数据集(GSM8K,数学推理能力)
[image]
速度慢的发指 ,10个并发~290~480 tokens/s😫(毕竟只有一台机器,速度上不去)
先去吃个饭,吃完再来看一下