yeyucca 在终于把DeepSeek V4 flash给部署起来了，llama.cpp终于适配起来了，gkd 中发帖deepseek v4 flash，非果子设备，要不antirze的metal框架就出来了，不过用的模型还是他家的，用的IQXXS2bit版本的，86.7GB显存，用的两张5090卡，单卡32G，好在服务器还有512G内存， llama.cpp前些天才能更新上去，所以模型出来，框架还要适配，很多之前都是0day，这次等了这麽久记得要把框架含这个的release给含进来，要不低于**b9840（哈哈，够严谨）** 哦，记得deepseek当前框架不支持kv cache设置到q8_0，请最低保持ctk 是f16，为了显示质量，kv 默认是f16，不动也行，否则你会遇到grabage信息输出，我差一点就把下载的80多G模型给删了 🤣 [image]

yeyucca 在终于把DeepSeek V4 flash给部署起来了，llama.cpp终于适配起来了，gkd 中发帖

deepseek v4 flash，非果子设备，要不antirze的metal框架就出来了， 
不过用的模型还是他家的，用的IQXXS2bit版本的，86.7GB显存，用的两张5090卡，单卡32G，好在服务器还有512G内存， 
llama.cpp前些天才能更新上去，所以模型出来，框架还要适配，很多之前都是0day，这次等了这麽久 
记得要把框架含这个的release给含进来，要不低于**b9840（哈哈，够严谨）** 


哦，记得deepseek当前框架不支持kv cache设置到q8_0，请最低保持ctk 是f16，为了显示质量，kv 默认是f16，不动也行，否则你会遇到grabage信息输出，我差一点就把下载的80多G模型给删了 🤣 
 [image]