spark写入mongo,性能提升10倍+

原来代码

finalDf.rdd.repartition(100).foreach(itm => {
   val InsertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
    //单条插入:
   mongoConn.withCollectionDo(new WriteConfig(databaseName,
    ResultCol, Option(MongoConn)), { col: MongoCollection[Document] => col.insertOne(InsertOne) })
  })

修改后:

val insertRdd = finalDf.rdd.coalesce(100).map(itm => {
   val insertOne = new Document("app", itm(0)).append("day", itm(1)).append("hour", itm(2)).append("adx", itm(3))
        insertOne
  })
  //批量写
    MongoSpark.save(insertRdd)

由于是从s3上往阿里云的mongo上插入,通过ping命令,知道ping一次大概要2ms,如果单条查,每一次插入相当于一次ping,时间都花在了网络上
,另外批量插入,mongo的压力也小,如图1.为批量插入

在这里插入图片描述

图2位单条插入

在这里插入图片描述

功夫老五 发布了95 篇原创文章 · 获赞 14 · 访问量 3万+ 私信 关注

相关文章

1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展A...
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,...