最佳的Data Lake文件分区大小

问题描述

在与Delta Lake查询讨论性能问题时,经常引用“小文件问题”。许多资料来源建议文件大小为1GB,以实现最佳查询性能。

我知道雪花与三角洲湖不同,但我认为雪花的策略与传统观点相矛盾,这很有趣。他们依靠微分区,压缩前的目标是50MB至500MB。

雪花和三角洲湖泊具有相似的特征:

  1. 文件修剪-SnowflakeDelta Lake

  2. 有关文件内容的元数据-SnowflakeDelta Lake

有人能解释为什么雪花能在较小的文件上蓬勃发展,而传统观念却认为三角洲湖挣扎了吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)