onewhite 在 基于个人电脑环境的轻量级翻译模型性能对比研究 中发帖
从悬赏:自部署小模型对于翻译任务的能力测评继续讨论:
本文的目的是:测评和比较各种自部署小模型的翻译效果
我的电脑配置如下:
CPU: Intel Core i7-14650H
GPU: NVIDIA GeForce RTX 4060 Laptop GPU(8GB)
内存: 32GB
操作系统: Windows 11
Python版本: 3.14
评测方法
评测指标:根据BLEU、CHRF指标来评测翻译质量
主观评测:有我个人主观的评测标准。
外部LLM打分:使用外部的LLM来对翻译结果进行打分
BLEU指标
Bilingual Evaluation Understudy. 一种自动化的评测机器翻译质量的方法,通过比较机器翻译的输出和一个或多个参考翻译来计算得分。BLEU得分越高,表示机器翻译的质量越好。
CHRF指标
chrF 是一种自动评估指标,通过比较字符序列而...