看到这提肛20并点赞 (@remoteman) 在部署了一些模型，拉取了一些数据，准备测试翻译模型中发帖部署了8个端侧可用的个人感觉比较合理的新模型： 1. qwen3.5:0.8b2. qwen3.5:2b3. qwen3.5:4b4. qwen3.5:9b5. translategemma:4b6. gemma3:4b7. gemma3n:e2b8. gemma3n:e4b部署了一个评估模型：qwen3.5:27b 拉取了一些公开基准： [image] 手动复制了一些论坛交流（被始皇拉黑了ip）： [image] 开搞！计划测试： 1、不同模型的基准性能 2、不同温度（0-1.2）对翻译任务的影响 3、翻译提示词简单提示词和复杂提示词的区别 4、术语表对于小模型是正增益还是负增益 PS. 根据一个预实验，复杂提示词加术语表可能并不会让小模型产生正增益，个人推测可能由于模型规模不足本身指令追随能力较差，过长的上下文也使得模型注意力分散，无法聚焦...

看到这提肛20并点赞 (@remoteman) 在部署了一些模型，拉取了一些数据，准备测试翻译模型中发帖

部署了8个端侧可用的个人感觉比较合理的新模型： 
1. qwen3.5:0.8b
2. qwen3.5:2b
3. qwen3.5:4b
4. qwen3.5:9b
5. translategemma:4b
6. gemma3:4b
7. gemma3n:e2b
8. gemma3n:e4b

部署了一个评估模型：qwen3.5:27b 
拉取了一些公开基准： 
 [image] 
手动复制了一些论坛交流（被始皇拉黑了ip）： 
[image] 
开搞！ 
计划测试： 
1、不同模型的基准性能 
2、不同温度（0-1.2）对翻译任务的影响 
3、翻译提示词简单提示词和复杂提示词的区别 
4、术语表对于小模型是正增益还是负增益 
PS. 根据一个预实验，复杂提示词加术语表可能并不会让小模型产生正增益，个人推测可能由于模型规模不足本身指令追随能力较差，过长的上下文也使得模型注意力分散，无法聚焦...