问题描述
对于 Parquet,我们知道文件被分成 1 个或多个 Row Group,每个 Row Group 有 1 个或多个 Column Chunk,每个 Column Chunk 有 1 个或多个 Page,每个 Page 独立压缩。
对于ORC,我真的无法清楚地了解结构。我知道它有Stripe,意思是几行,还有一个叫做“行组”的概念???!
关于压缩,ORC 是在 Stripe 级别还是 Row Group 级别压缩数据?
我花了 3 个小时在谷歌上搜索它但没有运气,而且 ORC 文档真的一团糟。所以,请大家帮忙解释一下,非常感谢。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)