了解ROUGE与BLEU

我正在研究用于衡量文本摘要质量的指标。为此，我找到了这样的SO answer，它指出：

bleu衡量精度：词中的单词（和/或n-gram）的数量机器生成的摘要出现在人类参考摘要中。

胭脂度量回想：在单词中多少词（和/或n-gram）人工参考摘要出现在机器生成的摘要中。

尽管在SE的answer版中，我发现了这一点：

ROUGE-n召回率= 40％表示参考中的n-gram的40％摘要也出现在生成的摘要中。

ROUGE-n precision = 40％表示所生成摘要中n-gram的40％也在参考摘要中。

ROUGE-n F1-分数= 40％是像任何F1分数一样，更难以解释。

这是矛盾的。听起来 Rouge-Precision 等于 bleu ，而 Rouge-Recall 等于等于。 >在 SO答案中所作的陈述。 Rouge-Precision与bleu实施bleu一样吗？

paper中也有说明：

很明显，ROUGE-N是与召回有关的措施，因为方程式的分母是n-克数的总和发生在参考摘要侧。一项密切相关的措施， bleu用于机器翻译的自动评估，是一种基于精度的度量。

我不明白这一点，因为（至少）胭脂返回一个精度和一个召回值。有人可以对此说清楚吗？谢谢！

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）