看到这提肛20并点赞 (@remoteman) 在 部署了一些模型,拉取了一些数据,准备测试翻译模型 中发帖
部署了8个端侧可用的个人感觉比较合理的新模型:
1. qwen3.5:0.8b
2. qwen3.5:2b
3. qwen3.5:4b
4. qwen3.5:9b
5. translategemma:4b
6. gemma3:4b
7. gemma3n:e2b
8. gemma3n:e4b
部署了一个评估模型:qwen3.5:27b
拉取了一些公开基准:
[image]
手动复制了一些论坛交流(被始皇拉黑了ip):
[image]
开搞!
计划测试:
1、不同模型的基准性能
2、不同温度(0-1.2)对翻译任务的影响
3、翻译提示词简单提示词和复杂提示词的区别
4、术语表对于小模型是正增益还是负增益
PS. 根据一个预实验,复杂提示词加术语表可能并不会让小模型产生正增益,个人推测可能由于模型规模不足本身指令追随能力较差,过长的上下文也使得模型注意力分散,无法聚焦...