如何在 Group by 后展平并从猪中获得如下所示的预期输出

问题描述

样品日期:

身份证标记日期

12345 12 20210204

12345 13 20210204

12345 2 20210204

输入:

(12345,{(12345,12,20210204),(12345,13,​​20210204),2,20210204)})

需要输出

(12345,27,20210204)

第二个元素是聚合值。

感谢帮助

解决方法

output = FOREACH input GENERATE
    group AS ID,SUM(sample.marks) AS mark_sum,MIN(sample.date) AS first_date;

您可能需要根据您的关系和字段名称进行调整。如果这些都相同,您可能还想按日期字段分组。