问题描述
样品日期:
身份证标记日期
12345 12 20210204
12345 13 20210204
12345 2 20210204
输入:
(12345,{(12345,12,20210204),(12345,13,20210204),2,20210204)})
需要输出:
(12345,27,20210204)
第二个元素是聚合值。
感谢帮助
解决方法
output = FOREACH input GENERATE
group AS ID,SUM(sample.marks) AS mark_sum,MIN(sample.date) AS first_date;
您可能需要根据您的关系和字段名称进行调整。如果这些都相同,您可能还想按日期字段分组。