gululu (@sts) 在 llama.cpp的server和直接读取方式出现了很大的效果差异,想问问佬友能不能帮我分析一下 中发帖
server我用两种方式都启动了,LM studio和直接从llama-server的源代码启动,在gsm8k上的效果都差不多,达到了LFM 1.2B论文说的水平,50多的准确率,但是我通过llama去直接读取模型然后测试反而效果只有20多了不知道为什么,模型是这个LFM2.5-1.2B-Instruct-Q8_0.gguf 运行参数我没加什么,都是默认的,想看看佬友们有没有什么类似的经历
[image]
[image]