yeyucca 在 终于把DeepSeek V4 flash给部署起来了,llama.cpp终于适配起来了,gkd 中发帖
deepseek v4 flash,非果子设备,要不antirze的metal框架就出来了,
不过用的模型还是他家的,用的IQXXS2bit版本的,86.7GB显存,用的两张5090卡,单卡32G,好在服务器还有512G内存,
llama.cpp前些天才能更新上去,所以模型出来,框架还要适配,很多之前都是0day,这次等了这麽久
记得要把框架含这个的release给含进来,要不低于**b9840(哈哈,够严谨)**
哦,记得deepseek当前框架不支持kv cache设置到q8_0,请最低保持ctk 是f16,为了显示质量,kv 默认是f16,不动也行,否则你会遇到grabage信息输出,我差一点就把下载的80多G模型给删了 🤣
[image]