读取最后一个增量分区而不读取所有增量

问题描述

我需要自动读取增量文件,并且只需要读取创建的最后一个分区。所有的三角洲都很大。增量按 yyyymm

进行分区
val df = spark.read.format("delta").load("url_delta").where(s"yyyy=${yyyy} and mm=${mm}")

我需要知道yyyy年和mm月的值。读取所有增量并过滤 max("yyyy")max("mm")

效率不高

解决方法

实际上,如果您在 yyyy 和 mm 上进行分区,那么获取最大年和月将是一个只有元数据的操作,只需查看事务日志,所以应该很快。