Spark Streaming实时写入Hive当日分区

Spark 2022-09-04

背景

由于需要查看原始数据，而原始数据实时产生，数据量较大，大约1万/分钟，写入MDB占用MDB的流量带宽，故考虑将原始数据写入Hive

逻辑

Spark Streaming作业中将消费的RDD整体处理为一个临时表，然后insert into到Hive表当日分区，即追加到当日分区

现状

写入少部分数据后就没有新数据进入，但是流处理作业并没有报错

分析：

Hive不支持对同一张表或分区进行并发数据插入，这样会导致多个任务操作同一个数据临时目录，一个任务将另一个任务的数据移走，导致任务失败。

实时处理任务中，RDD在不断产生，因此就会产生并发写入hive的现状，从而导致上述数据写入停滞的问题。

应该写入HDFS小文件，然后单独开启任务合并小文件到大分区

相关文章

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展A...

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得...

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，...