问题描述
对数组列 Impala 表的查询,工作速度非常慢。这些查询需要内存和 cpu。是否有任何优化的方式/技术来加速这些查询?
我们有下表的样品
Owner Pets
Sam cat
Sam dog
Sam parrot
Tom elephant
Tom horse
Tom pig
Tom cat
用于查询数据为:
Select owner,count(1)
from people
group by owner;
我们移动到带有数组列的新 Impala 表。
Owner Pets
Sam cat,dog,parrot
Tom elephant,horse,pig,cat
用于查询数据为:
Select owner,count(1)
from people,people.pets
group by owner
我每次查询大约 10 GB 的数据。
选择所有者,按所有者从人组中计数(1)=>工作良好
选择所有者,count(1) from people,people.pets group by owner => 性能很差。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)