学习笔记【机器翻译评测指标】「建议收藏」

编程小号 • 2024-05-13 16:11 • 未分类

学习笔记【机器翻译评测指标】「建议收藏」学习笔记【机器翻译评测指标】_常用的衡量机器翻译质量的指标

机器翻译评测指标

1. BLEU

基于n-gram的精度度量。在最初的机器翻译上需要考虑准确率（不能将一些重要词汇预测错误，例如将狗翻译成人，如unigram）和流畅性（是不是正常的句子，体现在高阶的gram）。

计算
译文与参考的n-gram匹配程度

由于短句的分数通常高于长句，因此引入短句惩罚因子 $BP$
优缺点：但是BLEU只关注准确率Precision（译文中有多少在参考中出现了），而没有考虑召回率（参考中有多少译文中没有翻译到），此外尽管公式中有对短句子的惩罚，但是在实践中还是普遍认为BLEU更喜欢短句

2. ROUGE

ROUGE与BLEU的计算方式类似，都是基于n-gram，只是ROUGE只考虑了召回率Recall。

计算
在实验中一般使用ROUGE_L，是基于最长公共子序列的F值
优缺点：因为神经网络机器翻译很容易生成流畅的句子，但是内容的正确性难以保证（例如凭空出现什么东西），所以用召回率来限制翻译的句子是不是正确。

3. METEO

METEOR主要是考虑到有些翻译可能正确的，只是没有对上译文的情况，考虑了同义词和词性，用wordnet扩充了同义词集。在评价流畅性方面，使用了chunk的概念，将位于生成的句子中相邻位置，且在参考句子中也位于相邻位置的词称为一个块，这样n-gram越长，组成的块的数量越少，惩罚项越小。

计算：在计算上，考虑了准确率和召回率，使用F值作为评价指标

计算惩罚系数（一般 $\gamma$ 取0.5， $\theta$ 取3，惩罚系数 $P e na lt y$ 最大取0.5）

最终METEOR指标计算

4. CIDEr

CIDEr 首先将 n-grams 在参考译文中出现的频率编码进来，通过TF-IDF 计算每个 n-gram 的权重，将句子用 n-gram 表示成向量的形式，然后计算参考译文和候选译文之间的 TF-IDF 向量余弦距离，以此度量二者的相似性。

计算
对所有n-gram计算tf-idf：第一项为tf，表示n-gram $w_k$ 的词频；第二项为idf，分子为所有图像总数量，分母为参考中出现 $w_k$ 对应的图像的数量。句子中所有n-grams组成的向量为tf-idf向量

译文和参考tf-idf之间的余弦距离（参考有m个句子）

使用多种长度的n-gram
优缺点：以上三种指标都是针对机器翻译提出的，而CIDEr是针对image caption提出的，更符合人类在评价描述的感受

参考资料：

直观理解
bleu和meteor的计算
生成任务中的评价指标BLEU/ROUGE/METEOR
用于图像描述的评价指标CIDEr讲解
BLEU，ROUGE，METEOR，ROUGE-浅述自然语言处理机器翻译常用评价度量
NLP基础知识点：CIDEr算法

补充知识

准确率、召回率和F值
准确率和召回率
准确率Precision、召回率Recall、F值 F Measure

今天的文章学习笔记【机器翻译评测指标】「建议收藏」分享到此就结束了，感谢您的阅读。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。
如需转载请保留出处：https://bianchenghao.cn/87907.html

赞 (0)

0

发表回复