onewhite 在基于个人电脑环境的轻量级翻译模型性能对比研究中发帖从悬赏：自部署小模型对于翻译任务的能力测评继续讨论：本文的目的是：测评和比较各种自部署小模型的翻译效果我的电脑配置如下： CPU: Intel Core i7-14650HGPU: NVIDIA GeForce RTX 4060 Laptop GPU(8GB)内存: 32GB操作系统: Windows 11Python版本: 3.14评测方法评测指标：根据BLEU、CHRF指标来评测翻译质量主观评测：有我个人主观的评测标准

onewhite 在基于个人电脑环境的轻量级翻译模型性能对比研究中发帖

从悬赏：自部署小模型对于翻译任务的能力测评继续讨论： 
本文的目的是：测评和比较各种自部署小模型的翻译效果 
我的电脑配置如下： 

CPU: Intel Core i7-14650H
GPU: NVIDIA GeForce RTX 4060 Laptop GPU(8GB)
内存: 32GB
操作系统: Windows 11
Python版本: 3.14

评测方法

评测指标：根据BLEU、CHRF指标来评测翻译质量
主观评测：有我个人主观的评测标准。
外部LLM打分：使用外部的LLM来对翻译结果进行打分

BLEU指标

Bilingual Evaluation Understudy. 一种自动化的评测机器翻译质量的方法，通过比较机器翻译的输出和一个或多个参考翻译来计算得分。BLEU得分越高，表示机器翻译的质量越好。 

CHRF指标

chrF 是一种自动评估指标，通过比较字符序列而...