@Ryens 在 Deepseek发布DSpark,利好本地推理 中发帖
具体内容很多大佬已经介绍过了,我这里只分享一下自己感受
几个月前很沉迷本地推理,但是自己显卡太拉,跑个Qwen3.6 27B Q4都费劲,于是尝试了各种办法试图提升推理速度,然后就发现了投机解码这个技术,可惜llama.cpp都还没官方支持。
现在DS进一步推进,很多llama.cpp三方分支也都支持了,再加上小模型也越来越强,本地推理真是越来越好了