两个数据子集的BLEU得分平均值与总得分不同

为了评估序列生成模型，我使用bleu1：bleu4。我将测试集分为两组，并分别计算了每组以及整个测试集的分数。令人惊讶的是，我从整个测试集中获得的结果不是我从每个测试集中获得的结果的加权平均值。例如，考虑我在一个集合及其两个子集中获得的bleu4分数：

set1，866个元素：0.0001529267908

set2，1010个元素：0.1625387989

，1876个元素：0.3063472152

我应该如何将结果汇总到两个子集上以获得总体结果？

注意：我知道set1中的所有元素都短于4个标记，这就是bleu4那里几乎为零的原因。

BLEU分数根据定义是非线性的。如您在Papineni et al.的原始论文中所见：

它是两个术语的乘积：简短度罚分（BP）和 n -gram精度的调和平均值。就平均而言，简洁性惩罚和谐波均值都不是线性运算。

关于应报告的内容：由于两个测试集看起来根本不同，所以最好的选择是报告两个单独的数字。

我不知道您的任务是什么，但是鉴于所需的输出很少很短，BLEU可能不是评估的最佳选择，您可能会考虑基于编辑的内容（例如TER），甚至可能会得出准确的结果做得好。