问题描述
在与Delta Lake查询讨论性能问题时,经常引用“小文件问题”。许多资料来源建议文件大小为1GB,以实现最佳查询性能。
我知道雪花与三角洲湖不同,但我认为雪花的策略与传统观点相矛盾,这很有趣。他们依靠微分区,压缩前的目标是50MB至500MB。
雪花和三角洲湖泊具有相似的特征:
-
文件修剪-Snowflake与Delta Lake
-
有关文件内容的元数据-Snowflake与Delta Lake
有人能解释为什么雪花能在较小的文件上蓬勃发展,而传统观念却认为三角洲湖挣扎了吗?
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)