使用 Glue 将数据从 AWS EMR 加载到 Redshift 非常慢

问题描述

我正在尝试将数据从 AWS EMR(数据存储为 S3 和胶水目录用于 metastore)加载到 Redshift。

import sys
import boto3
from datetime import datetime,date
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from awsglue.context import glueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from pyspark.context import SparkContext
from pyspark.sql import *
from pyspark.sql.functions import *
from pyspark.sql.window import *
from pyspark.sql.functions import to_date
from pyspark.sql import sqlContext

glueContext = glueContext(SparkContext.getorCreate())
spark = glueContext.sparkSession
sc = spark.sparkContext
sqlContext = sqlContext(sc)

df = sqlContext.sql("Select * from classic_models.orderdetails  where insert_date >= '2021-01-01' and insert_date < '2021-01-02' ")
dynamic_df = DynamicFrame.fromDF(new_df,glueContext,"dynamic_df")
redshift_target_table = "classic_models.orderdetails"
pre_actions = f"Truncate table {redshift_target_table};"
redshift_connection_opts = {
    "database": "dev","dbtable": redshift_target_table,"aws_iam_role": "arn:aws:iam::*********","preactions": pre_actions
}
s3_temp_dir = datetime.Now().strftime("%Y-%m-%d_%H-%M-%s")
glueContext.write_dynamic_frame.from_jdbc_conf(
    frame = dynamic_df,catalog_connection = "redshift",connection_options = redshift_connection_opts,redshift_tmp_dir = "s3:/staging/orderdetails/%s/" % s3_temp_dir  #Need change
)

从 Hive 提取数据非常快,但将数据加载到 Redshift 需要很长时间。长我的意思是,如果我正在加载过去 10 天的数据,并且粘合工作需要 16 分钟才能完成,不到 1 分钟是从 Hive 中提取数据,其余的只是将数据加载到 Redshift。 超过一半的 Hive 表列是 String 数据类型 还有其他更好更快的方法吗?

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)