Spark—RDD介绍

Spark—RDD

1、概念介绍

RDD（Resilient Distributed Dataset）:弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。

官方定义还是比较抽象，个人理解为:它本质就是一个类，屏蔽了底层对数据的复杂抽象和处理，为用户提供了一组方便数据转换和求值的方法。

2、RDD特点

1)不可变：弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合

2)可分区：RDD在抽象上来说是一种元素集合，包含了数据。它是被分区的，分为多个分区，每个分区分布在集群中的不同Worker节点上，从而让RDD中的数据可以被并行操作。（分布式数据集）

3)弹性：1>存储弹性：内存与磁盘的自动切换 2>容错弹性：数据丢失可以自动恢复

3>计算弹性：计算出错重试机制 4>分片弹性：根据需要重新分片

3、在计算数据中RDD都做了什么：

主要流程：

RDD创建——>RDD转换——>RDD缓存——>RDD行动——>RDD的输出

spark计算的核心就在RDD转换、缓存、行动上。

4、Spark wordcount 解释RDD

相关文章