问题描述
我需要自动读取增量文件,并且只需要读取创建的最后一个分区。所有的三角洲都很大。增量按 yyyy 和 mm
进行分区
val df = spark.read.format("delta").load("url_delta").where(s"yyyy=${yyyy} and mm=${mm}")
我需要知道yyyy年和mm月的值。读取所有增量并过滤 max("yyyy")
和 max("mm")
效率不高
解决方法
实际上,如果您在 yyyy 和 mm 上进行分区,那么获取最大年和月将是一个只有元数据的操作,只需查看事务日志,所以应该很快。