我爱电子书-《Hadoop+Spark生态系统操作与实战指南》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 计算机基础职场办公

简介

Hadoop+Spark生态系统操作与实战指南豆 0.0分

资源最后更新于 2020-03-29 03:18:15

作者：余辉

出版社：出版社清华大学出版社

出版日期：2017-09

ISBN：9787302479673

文件格式： pdf

标签：计算机程序数据处理

简介· · · · · ·

本书用于Hadoop+Spark快速上手，全面解析Hadoop和Spark生态系统，通过原理解说和实例操作每一个组件，让读者能够轻松跨入大数据分析与开发的大门。全书共12章，大致分为3个部分，第1部分（第1～7章）讲解Hadoop的原生态组件，包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装，以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分（第8～11章）讲解Spark的原生态组件，包括Spark Core、Spark SQL、Spark Streaming、DataFrame，以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作，其中Flume和Kafka属于Apache顶级开源项目也放在本篇讲解。第3部分（第12章）讲解两个大数据项目，包络网页日志离线项目和实时项目，在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合，一步步带领读者学习和实战操作。本书适合想要快速掌握大数据技术的初学者，也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。余辉，中国科学院大学硕士研究生毕业，研究方向为云计算和大数据。现供职于某上市公司担任技术经理，并在Oracle OAEC人才产业集团大数据学院担任大数据讲师。曾在清华大学电子工程系NGNLab研究室担任软件工程师。

直接下载

简介

Hadoop+Spark生态系统操作与实战指南 豆 0.0分

简介· · · · · ·

目录

推荐序

前言

第1章 ◄Hadoop概述►

1.1 Hadoop简介

1.2 Hadoop版本和生态系统

1.3 MapReduce简介

1.4 HDFS简介

1.5 Eclipse+Java开发环境搭建

1.6 小结

第2章 ◄Hadoop集群搭建►

2.1 虚拟机简介

2.2 虚拟机配置

2.3 Linux系统设置

2.4 Apache版本Hadoop集群搭建

2.5 CDH版本Hadoop集群搭建

2.6 小结

第3章 ◄Hadoop基础与原理►

3.1 MapReduce原理介绍

3.2 HDFS原理介绍

3.3 HDFS实战

3.4 YARN原理介绍

3.5 小结

第4章 ◄ZooKeeper实战►

4.1 ZooKeeper原理介绍

4.2 ZooKeeper安装

4.3 ZooKeeper实战

4.4 小结

第5章 ◄MapReduce实战►

5.1 前期准备

5.2 查看YARN上的任务

5.3 加载配置文件

5.4 MapReduce实战

5.5 小结

第6章 ◄HBase实战►

6.1 HBase简介及架构

6.2 HBase安装

6.3 HBase实战

6.4 小结

第7章 ◄Hive实战►

7.1 Hive介绍和架构

7.2 Hive数据类型和表结构

7.3 Hive分区、桶与倾斜

7.4 Hive安装

7.5 Hive实战

7.6 小结

第8章 ◄Scala实战►

8.1 Scala简介与安装

8.2 IntelliJ IDEA开发环境搭建

8.3 IntelliJ IDEA建立Maven项目

8.4 基础语法

8.5 函数

8.6 控制语句

8.7 函数式编程

8.8 模式匹配

8.9 类和对象

8.10 Scala异常处理

8.11 Trait（特征）

8.12 Scala文件I/O

8.13 作业

8.14 小结

第9章 ◄Flume实战►

9.1 Flume概述

9.2 Flume的结构

9.3 Flume安装

9.4 Flume实战

9.5 小结

第10章 ◄Kafka实战►

10.1 Kafka概述

10.2 Kafka设计原理

10.3 Kafka主要配置

10.4 Kafka客户端操作

10.5 Java操作Kafka

10.6 Flume连接Kafka

10.7 小结

第11章 ◄Spark实战►

11.1 Spark概述

Hadoop+Spark生态系统操作与实战指南豆 0.0分

1.1　Hadoop简介

1.2　Hadoop版本和生态系统

1.3　MapReduce简介

1.4　HDFS简介

1.5　Eclipse+Java开发环境搭建

1.6　小结

2.1　虚拟机简介

2.2　虚拟机配置

2.3　Linux系统设置

2.4　Apache版本Hadoop集群搭建

2.5　CDH版本Hadoop集群搭建

2.6　小结

3.1　MapReduce原理介绍

3.2　HDFS原理介绍

3.3　HDFS实战

3.4　YARN原理介绍

3.5　小结

4.1　ZooKeeper原理介绍

4.2　ZooKeeper安装

4.3　ZooKeeper实战

4.4　小结

5.1　前期准备

5.2　查看YARN上的任务

5.3　加载配置文件

5.4　MapReduce实战

5.5　小结

6.1　HBase简介及架构

6.2　HBase安装

6.3　HBase实战

6.4　小结

7.1　Hive介绍和架构

7.2　Hive数据类型和表结构

7.3　Hive分区、桶与倾斜

7.4　Hive安装

7.5　Hive实战

7.6　小结

8.1　Scala简介与安装

8.2　IntelliJ IDEA开发环境搭建

8.3　IntelliJ IDEA建立Maven项目

8.4　基础语法

8.5　函数

8.6　控制语句

8.7　函数式编程

8.8　模式匹配

8.9　类和对象

8.10　Scala异常处理

8.11　Trait（特征）

8.12　Scala文件I/O

8.13　作业

8.14　小结

9.1　Flume概述

9.2　Flume的结构

9.3　Flume安装

9.4　Flume实战

9.5　小结

10.1　Kafka概述

10.2　Kafka设计原理

10.3　Kafka主要配置

10.4　Kafka客户端操作

10.5　Java操作Kafka

10.6　Flume连接Kafka

10.7　小结

11.1　Spark概述

11.2　Spark基本概念

11.3　Spark算子实战及功能描述

11.4　Spark Streaming实战

11.5　Spark SQL和DataFrame实战

11.6　小结

12.1　项目介绍

12.2　网站离线项目

12.3　网站实时项目

12.4　小结