gululu (@sts) 在 llama.cpp的server和直接读取方式出现了很大的效果差异，想问问佬友能不能帮我分析一下中发帖server我用两种方式都启动了，LM studio和直接从llama-server的源代码启动，在gsm8k上的效果都差不多，达到了LFM 1.2B论文说的水平，50多的准确率，但是我通过llama去直接读取模型然后测试反而效果只有20多了不知道为什么，模型是这个LFM2.5-1.2B-Instruct-Q8_0.gguf 运行参数我没加什么，都是默认的，想看看佬友们有没有什么类似的经历 [image] [image]

gululu (@sts) 在 llama.cpp的server和直接读取方式出现了很大的效果差异，想问问佬友能不能帮我分析一下中发帖

server我用两种方式都启动了，LM studio和直接从llama-server的源代码启动，在gsm8k上的效果都差不多，达到了LFM 1.2B论文说的水平，50多的准确率，但是我通过llama去直接读取模型然后测试反而效果只有20多了不知道为什么，模型是这个LFM2.5-1.2B-Instruct-Q8_0.gguf 运行参数我没加什么，都是默认的，想看看佬友们有没有什么类似的经历 
 [image] 
[image]