数据块中的 delta 湖 - 流的最后半小时的一致“视图”

问题描述

我一直从 spark 结构化流中更新表(kafka 源) 写成这样(在eachBatch中)


parsedDf \
        .select("somefield","anotherField",'partition','offset') \
        .write \
        .format("delta") \
        .mode("append") \
        .option("mergeSchema","true") \
        .save(f"/mnt/defaultDatalake/{append_table_name}")

我需要快速查看这张桌子上的“过去半小时内插入的物品” 如何做到这一点? 我可以从这个表中获得一个 readStream,但我缺少的是如何将流的“尾部”保留在那里

Databricks 7.5 spark 3.

解决方法

鉴于 Delta Lake 没有物质化视图,并且 Delta Lake 时间旅行与您想要的最新数据无关: