Spark案例与实验教程 内容简介
本书介绍了如何使用Spark进行数据处理。主要采用了理论和案例相结合的方式,系统地介绍了Spark方面的知识:从最基本的Spark环境的安装与配置,到Spark RDD算子的基本操作,再到Spark基础实践中典型案例的实例剖析,最后到Spark生态圈,四个子框架的讲解与实践,贯穿整个Spark知识系统。各章知识间,内容由浅到深,循序渐进,从而帮助读者更好的理解和运用Spark的相关知识。本书适用于开设相关课程的高校本科生和研究生,也可以作为感兴趣读者的技术和案例资料。
Spark案例与实验教程 目录
第1章 Spark简介
1.1 知识要点
1.1.1 Spark概述
1.1.2 Spark生态系统
1.1.3 Spark架构
1.2 案例实践
第2章 Spark RDD算子
2.1 知识要点
2.1.1 RDD基础
2.1.2 键值对操作
2.1.3 数据读取与保存
2.2 案例实践
2.2.1 RDD API综合实战
2.2.2 使用Intellij Idea搭建Spark开发环境
第3章 Spark基础实践
3.1 知识要点
3.1.1 Scala语言
3.1.2 Spark Java、Python接口
3.1.3 Spark程序执行流程
3.2 案例实践
3.2.1 WordCount
3.2.2 Top K
3.2.3 求取中位数
3.2.4 倒排索引
3.2.5 CountOnce
3.2.6 倾斜连接
3.3 小结
第4章 spark进阶实践
4.1 Spark SQL原理与实践
4.1.1 知识要点
4.1.2 案例实践
4.2 Spark Streaming流式计算框架
4.2.1 知识要点
4.2.2 案例实践
4.3 CraphX图计算框架
4.3.1 知识要点
4.3.2 案例实践
4.4 Spark Muib机器学习库
4.4.1 知识要点
4.4.2 案例实践
第5章 spark性能优化
5.1 知识要点
5.2 案例实践
参考文献
Spark案例与实验教程 精彩文摘
(2)配置SSH免密码登录
在集群管理和配置中有很多T具可以使用。例如,可以采用pssh等Linux工具在集群中分发与复制文件,也可以自己书写Shell、Python的脚本分发包。
Spark的Master节点向Worker节点发命令需要通过ssh进行发送。通常情况下不希望Master每发送一次命令就输入一次密码,因此需要实现Master无密码登录到所有worker。
本文来自语死早数已亡投稿,不代表电子书资源网立场,如若转载,请联系原作者获取。