Apache Spark 2.x Machine Learning Cookbook(3) Spark的三种用于机器学习的数据火枪手-完美结合

在本章中,我们将介绍以下内容

使用内部数据源通过Spark 2.0创建RDD

使用外部数据源通过Spark 2.0创建RDD

使用filter()  API使用Spark 2.0转换RDD

使用超级有用的flatMap() API转换RDD

使用set的操作API转换RDD

使用groupBy()和reduceByKey()进行RDD转换/聚合

使用zip()API转换RDD

使用配对键值RDD进行join转换

使用成对的key value RDD对转换进行reduce和grouping

从Scala数据结构创建DataFrame

在没有sql的情况下以编程方式在DataFrames上进行操作

从外部源加载DataFrame和设置

将DataFrame与标准sql语言一起使用-Sparksql

使用Scala序列使用Dataset API

从RDD创建和使用数据集,然后再次返回

结合使用Dataset API和sql使用JSON

使用域对象使用Dataset API进行功能编程

 

实施强大的机器学习系统

在本章中,我们将介绍:
Spark的基本统计API,可帮助您构建自己的算法
用于现实机器学习应用程序的ML管道
用Spark规范化数据
拆分数据以进行培训和测试
新的数据集API的常见操作
从Spark 2.0中的文本文件创建和使用RDD,DataFrame和Dataset
Spark ML的LabeledPoint数据结构
在Spark 2.0+中访问Spark集群
可以访问Spark Cluster Pre-Spark 2.0
在Spark 2.0中访问SparkContext相对于SparkSession对象的访问
Spark 2.0中的新模型导出和PMML标记
使用Spark 2.0进行回归模型评估
使用Spark 2.0进行二进制分类模型评估
使用Spark 2.0进行多标签分类模型评估
使用Spark 2.0进行多类分类模型评估
使用Scala Breeze库在Spark 2.0中制作图形

 

 

 

相关文章

1.SparkStreaming是什么?SparkStreaming是SparkCore的扩展A...
本篇内容介绍了“Spark通讯录相似度计算怎么实现”的有关知识...
本篇文章给大家分享的是有关如何进行Spark数据分析,小编觉得...
本篇内容主要讲解“Spark Shuffle和Hadoop Shuffle有哪些区别...
这篇文章主要介绍“TSDB的数据怎么利用Hadoop/spark集群做数...
本篇内容介绍了“Hadoop与Spark性能原理是什么”的有关知识,...