初始Spark

Spark 2022-09-04

参考网址：https://www.cnblogs.com/qingyunzong/p/8886338.html

Spark是基于内存的计算框架

1.为什么要学习Spark?

可以解决迭代计算，融入hadoop生态圈，弥补mr计算框架的不足

2.特点

(1)speed 速度快

基于内存计算，使用有向无环图(DAG)程序调度，查询优化器，物理执行器。速度比mr快100倍

(2)ease of use 容易使用

支持scala,java,Python编程

(3)generality 通用

Spark提供了统一的解决方案：批处理，交互式查询（Spark sql）,实时流处理（Spark Streaming）,机器学习（Spark MLIb）和图计算（GraphX）

(4)runs everywhere 兼容性好

自带standalone资源管理和任务调度器，同时可以兼容hadoop的yarn和apache的mesos

可以兼容hadoop生态圈，如hdfs,hive,hbase

3.Spark的组成

Spark Core：Spark核心，类似于MR，对数据进行离线处理，批处理

Spark sql：交互式查询

Spark Streaming ：流式处理框架

Spark MLib：机器学习

GraphX：图计算

相关文章

1_Spark Streaming 概述

1.SparkStreaming是什么？SparkStreaming是SparkCore的扩展A...

Spark通讯录相似度计算怎么实现

本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...

如何进行Spark数据分析

本篇文章给大家分享的是有关如何进行Spark数据分析，小编觉得...

Spark Shuffle和Hadoop Shuffle有哪些区别

本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...

TSDB的数据怎么利用Hadoop/spark集群做数据分析

这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...

Hadoop与Spark性能原理是什么

本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识，...