问题描述
我有一个镶木地板文件并创建了一个新的外部表,但与突触中的普通表相比,性能非常慢。你能告诉我如何解决这个问题吗。
解决方法
非常广泛的问题。所以我会给出广泛的答案:
- 使用普通表。使用外部表很难击败“普通表”的性能。 “普通表”是指使用
CREATE TABLE
在专用 SQL 池中创建的表。如果您从一个或多个表中重复查询数据,并且每个查询都不同(分组依据、联接、选定列),那么您无法获得具有外部表的“普通”表的出色性能。 - 了解并应用基本的best practices:
-
使用您正在使用的镶木地板格式。
-
选择正确的分区列并通过将分区存储到不同的文件夹或文件名来对数据进行分区。
-
如果查询针对单个大文件,您将受益于将其拆分为多个较小的文件。
-
尽量将 CSV(如果使用 csv)文件大小保持在 100 MB 到 10 GB 之间。
-
使用正确的数据类型。
-
手动为 CSV 文件创建统计数据
-
使用 CETAS 来增强查询性能和连接
...还有更多。
-