了解ROUGE与BLEU

问题描述

我正在研究用于衡量文本摘要质量的指标。 为此,我找到了这样的SO answer,它指出:

bleu衡量精度:词中的单词(和/或n-gram)的数量 机器生成摘要出现在人类参考摘要中。

胭脂度量回想:在单词中多少词(和/或n-gram) 人工参考摘要出现在机器生成摘要中。

尽管在SE的answer版中,我发现了这一点:

ROUGE-n召回率= 40%表示参考中的n-gram的40% 摘要也出现在生成摘要中。

ROUGE-n precision = 40%表示所生成摘要中n-gram的40% 也在参考摘要中。

ROUGE-n F1-分数= 40%是 像任何F1分数一样,更难以解释。

这是矛盾的。听起来 Rouge-Precision 等于 bleu ,而 Rouge-Recall 等于等于。 >在 SO答案中所作的陈述。 Rouge-Precision与bleu实施bleu一样吗?

paper中也有说明:

很明显,ROUGE-N是与召回有关的措施,因为 方程式的分母是n-克数的总和 发生在参考摘要侧。一项密切相关的措施, bleu用于机器翻译的自动评估,是一种 基于精度的度量。

我不明白这一点,因为(至少)胭脂返回一个精度一个召回值。有人可以对此说清楚吗? 谢谢!

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...