注重体验与质量的电子书资源下载网站
分类于: 计算机基础 云计算&大数据
简介
Apache Spark源码剖析 豆 5.9分
资源最后更新于 2020-03-29 04:04:48
作者:许鹏
出版社:出版社电子工业出版社
出版日期:2015-03
ISBN:9787121254208
文件格式: pdf
简介· · · · · ·
《Apache Spark源码剖析》以Spark 1.02版本源码为切入点,着力于探寻Spark所要解决的主要问题及其解决办法,通过一系列精心设计的小实验来分析每一步背后的处理逻辑。《Apache Spark源码剖析》第3~5章详细介绍了Spark Core中作业的提交与执行,对容错处理也进行了详细分析,有助读者深刻把握Spark实现机理。第6~9章对Spark Lib库进行了初步的探索。在对源码有了一定的分析之后,读者可尽快掌握Spark技术。《Apache Spark源码剖析》对于Spark应用开发人员及Spark集群管理人员都有极好的学习价值;对于那些想从源码学习而又不知如何入手的读者,也不失为一种借鉴。许鹏:长期致力于电信领域和互联网的软件研发,在数据处理方面积累了大量经验,对系统的可扩展性、可靠性方面进行过深入学习和研究。因此,累积了大量的源码阅读和分析的技巧与方法。目前在杭州同盾科技担任大数据平台架构师一职。对于Linux内核,作者也曾进行过深入的分析。
目录
前言
第一部分 Spark概述
第1章 初识Spark
1.1 大数据和Spark
1.2 与Spark的第一次亲密接触
第二部分 Spark核心概念
第2章 Spark整体框架
2.1 编程模型
2.2 运行框架
2.3 源码阅读环境准备
第3章 SparkContext初始化
3.1 spark-shell
3.2 SparkContext的初始化综述
3.3 SparkRepl综述
第4章 Spark作业提交
4.1 作业提交
4.2 作业执行
4.3 存储机制
第5章 部署方式分析
5.1 部署模型
5.2 单机模式local
5.3 伪集群部署local-cluster
5.4 原生集群Standalone Cluster
5.5 SparkOn YARN
第三部分 Spark Lib
第6章 SparkStreaming
6.1 SparkStreaming整体架构
6.2 SparkStreaming执行过程
6.3 窗口操作
6.4 容错性分析
6.5 SparkStreaming vs.Storm
6.6 应用举例
第7章 SQL
7.1 SQL语句的通用执行过程分析
7.2 SQLOn Spark的实现分析
7.3 Parquet文件和JSON数据集
7.4 Hive简介
7.5 HiveQLOn Spark详解
第8章 GraphX
8.1 GraphX简介
8.2 分布式图计算处理技术介绍
8.3 Pregel计算模型
8.4 GraphX图计算框架实现分析
8.5 PageRank
第9章 MLLib
9.1 线性回归
9.2 线性回归的代码实现
9.3 分类算法
9.4 拟牛顿法
9.5 MLLib与其他应用模块间的整合
第四部分 附录
附录A Spark源码调试
A.3.1 导入Spark源码
附录B 源码阅读技巧