问题描述
我正在研究用于衡量文本摘要质量的指标。 为此,我找到了这样的SO answer,它指出:
尽管在SE的answer版中,我发现了这一点:
ROUGE-n召回率= 40%表示参考中的n-gram的40% 摘要也出现在生成的摘要中。
ROUGE-n precision = 40%表示所生成摘要中n-gram的40% 也在参考摘要中。
ROUGE-n F1-分数= 40%是 像任何F1分数一样,更难以解释。
这是矛盾的。听起来 Rouge-Precision 等于 bleu ,而 Rouge-Recall 等于等于。 >在 SO答案中所作的陈述。 Rouge-Precision与bleu实施bleu一样吗?
paper中也有说明:
很明显,ROUGE-N是与召回有关的措施,因为 方程式的分母是n-克数的总和 发生在参考摘要侧。一项密切相关的措施, bleu用于机器翻译的自动评估,是一种 基于精度的度量。
我不明白这一点,因为(至少)胭脂返回一个精度和一个召回值。有人可以对此说清楚吗? 谢谢!
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)