Impala 表上数组列的选择查询非常慢

问题描述

对数组列 Impala 表的查询,工作速度非常慢。这些查询需要内存和 cpu。是否有任何优化的方式/技术来加速这些查询

我们有下表的样品

Owner Pets
Sam cat
Sam dog
Sam parrot
Tom elephant
Tom horse
Tom pig
Tom cat

用于查询数据为:

Select owner,count(1)
from people
group by owner;

我们移动到带有数组列的新 Impala 表。

Owner Pets
Sam cat,dog,parrot
Tom elephant,horse,pig,cat

用于查询数据为:

Select owner,count(1) 
from people,people.pets
group by owner

我每次查询大约 10 GB 的数据。

选择所有者,按所有者从人组中计数(1)=>工作良好

选择所有者,count(1) from people,people.pets group by owner => 性能很差。

任何加速数组列查询的优化方法/技术,它有很大帮助,谢谢。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...