我爱电子书-《Spark大数据处理技术》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 计算机基础互联网云计算&大数据人工智能

简介

Spark大数据处理技术豆 5.3分

资源最后更新于 2020-03-29 04:44:17

作者：夏俊鸾刘旭晖邵赛赛程浩史鸣飞黄洁

出版社：出版社电子工业出版社

出版日期：2014-01

ISBN：9787121250811

文件格式： pdf

标签：互联网技术网络计算机大数据

简介· · · · · ·

《Spark大数据处理技术》以Spark 0.9版本为基础进行编写，是一本全面介绍Spark及Spark生态圈相关技术的书籍，是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析，包括部署模式、调度框架、存储管理以及应用监控；同时也详细介绍了Spark生态圈中其他的软件和模块，包括SQL处理引擎Shark和Spark SQL、流式处理引擎Spark Streaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读，并对Spark的应用现状和未来发展做了一定的介绍，旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读，同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Spark大数据处理技术》，读者能够熟悉和掌握Spark这一当前流行的大数据框架，并将其投入到生产实践中去。夏俊鸾，现任阿里巴巴数据平台部高级技术专家，Apache Spark项目Committer，曾就职于英特尔亚太研发中心，微博账号@Andrew-Xia。刘旭晖，现任蘑菇街数据平台资深架构师（花名天火），曾就职于英特尔亚太研发中心大数据软件部，Spark/Hadoop/Hbase/Phoenix等众多大数据相关开源项目的积极贡献者。乐于分享，著有CSDN博客blog.csdn.net/colorant。邵赛赛，英特尔亚太研发有限公司开发工程师，专注于大数据领域，开源爱好者，现从事Spark相关工作，Spark代码贡献者。程浩，英特尔大数据技术团队软件工程师，Shark和Spark SQL活跃开发者，致力于SQL on Big Data的性能调优与优化。史鸣飞，英特尔亚太研发有限公司大数据软件部工程师，专注于大数据领域，主要从事Spark及相关项目的开发及应用，Spark及Shark代码贡献者，现在主要投身于Tachyon项目的开发。黄洁，目前就职于英特尔亚太研发中心大数据技术中心，担任高级软件工程师，致力于大数据技术的性能优化及开发工作，涉及Hadoop、Spark、HBase等开源项目。

直接下载

简介

Spark大数据处理技术 豆 5.3分

简介· · · · · ·

目录

序

前言

第1章 Spark系统概述

1.1 大数据处理框架

1.2 Spark大数据处理框架

1.2.1 RDD表达能力

1.2.2 Spark子系统

1.3 小结

第2章 Spark RDD及编程接口

2.1 Spark程序“Hello World”

2.2 Spark RDD

2.2.1 RDD分区（partitions）

2.2.2 RDD优先位置（preferredLocations）

2.2.3 RDD依赖关系（dependencies）

2.2.4 RDD分区计算（compute）

2.2.5 RDD分区函数（partitioner）

2.3 创建操作

2.3.1 集合创建操作

2.3.2 存储创建操作

2.4 转换操作

2.4.1 RDD基本转换操作

2.4.2 键值RDD转换操作

2.4.3 再论RDD依赖关系

2.5 控制操作（control operation）

2.6 行动操作（action operation）

2.6.1 集合标量行动操作

2.6.2 存储行动操作

2.7 小结

第3章 Spark运行模式及原理

3.1 Spark运行模式概述

3.1.1 Spark运行模式列表

3.1.2 Spark基本工作流程

3.1.3 相关基本类

3.2 Local模式

3.2.2 内部实现原理

3.3 Standalone模式

3.3.2 内部实现原理

3.4 Local cluster模式

3.4.2 内部实现原理

3.5 Mesos模式

3.5.2 内部实现原理

3.6 YARN standalone/YARN cluster模式

3.6.2 内部实现原理

3.7 YARN client模式

3.7.2 内部实现原理

3.8 各种模式的实现细节比较

3.8.1 环境变量的传递

3.8.2 JAR包和各种依赖文件的分发

3.8.3 任务管理和序列化

3.8.4 用户参数配置

3.8.5 用户及权限控制

3.9 Spark 1.0版本之后的变化

3.10 小结

第4章 Spark调度管理原理

4.1 Spark作业调度管理概述

4.2 Spark调度相关基本概念

4.3 作业调度模块顶层逻辑概述

4.4 作业调度具体工作流程

4.4.1 调度阶段的拆分

4.4.2 调度阶段的提交

4.4.3 任务集的提交

4.4.4 完成状态的监控

4.4.5 任务结果的获取

4.5 任务集管理模块详解

4.6 调度池和调度模式分析

4.7 其他调度相关内容

4.7.1 Spark应用之间的调度关系

4.7.2 调度过程中的数据本地性问题

4.8 小结

第5章 Spark的存储管理

5.1 存储管理模块整体架构

5.1.1 通信层架构

5.1.2 通信层消息传递

5.1.3 注册存储管理模块

5.1.4 存储层架构

5.1.5 数据块（Block）

Spark大数据处理技术豆 5.3分

第1章　Spark系统概述

1.1　大数据处理框架

1.2　Spark大数据处理框架

1.2.1　RDD表达能力

1.2.2　Spark子系统

1.3　小结

第2章　Spark RDD及编程接口

2.1　Spark程序“Hello World”

2.2　Spark RDD

2.2.1　RDD分区（partitions）

2.2.2　RDD优先位置（preferredLocations）

2.2.3　RDD依赖关系（dependencies）

2.2.4　RDD分区计算（compute）

2.2.5　RDD分区函数（partitioner）

2.3　创建操作

2.3.1　集合创建操作

2.3.2　存储创建操作

2.4　转换操作

2.4.1　RDD基本转换操作

2.4.2　键值RDD转换操作

2.4.3　再论RDD依赖关系

2.5　控制操作（control operation）

2.6　行动操作（action operation）

2.6.1　集合标量行动操作

2.6.2　存储行动操作

2.7　小结

第3章　Spark运行模式及原理

3.1　Spark运行模式概述

3.1.1　Spark运行模式列表

3.1.2　Spark基本工作流程

3.1.3　相关基本类

3.2　Local模式

3.2.2　内部实现原理

3.3　Standalone模式

3.3.2　内部实现原理

3.4　Local cluster模式

3.4.2　内部实现原理

3.5　Mesos模式

3.5.2　内部实现原理

3.6　YARN standalone/YARN cluster模式

3.6.2　内部实现原理

3.7　YARN client模式

3.7.2　内部实现原理

3.8　各种模式的实现细节比较

3.8.1　环境变量的传递

3.8.2　JAR包和各种依赖文件的分发

3.8.3　任务管理和序列化

3.8.4　用户参数配置

3.8.5　用户及权限控制

3.9　Spark 1.0版本之后的变化

3.10　小结

第4章　Spark调度管理原理

4.1　Spark作业调度管理概述

4.2　Spark调度相关基本概念

4.3　作业调度模块顶层逻辑概述

4.4　作业调度具体工作流程

4.4.1　调度阶段的拆分

4.4.2　调度阶段的提交

4.4.3　任务集的提交

4.4.4　完成状态的监控

4.4.5　任务结果的获取

4.5　任务集管理模块详解

4.6　调度池和调度模式分析

4.7　其他调度相关内容

4.7.1　Spark应用之间的调度关系

4.7.2　调度过程中的数据本地性问题

4.8　小结

第5章　Spark的存储管理

5.1　存储管理模块整体架构

5.1.1　通信层架构

5.1.2　通信层消息传递

5.1.3　注册存储管理模块

5.1.4　存储层架构

5.1.5　数据块（Block）

5.2　RDD持久化

5.2.1　RDD分区和数据块的关系

5.2.2　内存缓存

5.2.3　磁盘缓存

5.2.4　持久化选项