logo
分类于: 计算机基础 职场办公

简介

Hadoop+Spark生态系统操作与实战指南

Hadoop+Spark生态系统操作与实战指南 0.0分

资源最后更新于 2020-03-29 03:18:15

作者:余辉

出版社:出版社清华大学出版社

出版日期:2017-09

ISBN:9787302479673

文件格式: pdf

标签: 计算机 程序 数据处理

简介· · · · · ·

本书用于Hadoop+Spark快速上手,全面解析Hadoop和Spark生态系统,通过原理解说和实例操作每一个组件,让读者能够轻松跨入大数据分析与开发的大门。全书共12章,大致分为3个部分,第1部分(第1~7章)讲解Hadoop的原生态组件,包括Hadoop、ZooKeeper、HBase、Hive环境搭建与安装,以及介绍MapReduce、HDFS、ZooKeeper、HBase、Hive原理和Apache版本环境下实战操作。第2部分(第8~11章)讲解Spark的原生态组件,包括Spark Core、Spark SQL、Spark Streaming、DataFrame,以及介绍Scala、Spark API、Spark SQL、Spark Streaming、DataFrame原理和CDH版本环境下实战操作,其中Flume和Kafka属于Apache顶级开源项目也放在本篇讲解。第3部分(第12章)讲解两个大数据项目,包络网页日志离线项目和实时项目,在CDH版本环境下通过这两个项目将Hadoop和Spark原生态组件进行整合,一步步带领读者学习和实战操作。本书适合想要快速掌握大数据技术的初学者,也适合作为高等院校和培训机构相关专业师生的教学参考书和实验用书。余辉,中国科学院大学硕士研究生毕业,研究方向为云计算和大数据。现供职于某上市公司担任技术经理,并在Oracle OAEC人才产业集团大数据学院担任大数据讲师。曾在清华大学电子工程系NGNLab研究室担任软件工程师。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 推荐序
  2. 前言
  3. 第1章 ◄Hadoop概述►
  4. 1.1 Hadoop简介
  5. 1.2 Hadoop版本和生态系统
  6. 1.3 MapReduce简介
  7. 1.4 HDFS简介
  8. 1.5 Eclipse+Java开发环境搭建
  9. 1.6 小结
  10. 第2章 ◄Hadoop集群搭建►
  11. 2.1 虚拟机简介
  12. 2.2 虚拟机配置
  13. 2.3 Linux系统设置
  14. 2.4 Apache版本Hadoop集群搭建
  15. 2.5 CDH版本Hadoop集群搭建
  16. 2.6 小结
  17. 第3章 ◄Hadoop基础与原理►
  18. 3.1 MapReduce原理介绍
  19. 3.2 HDFS原理介绍
  20. 3.3 HDFS实战
  21. 3.4 YARN原理介绍
  22. 3.5 小结
  23. 第4章 ◄ZooKeeper实战►
  24. 4.1 ZooKeeper原理介绍
  25. 4.2 ZooKeeper安装
  26. 4.3 ZooKeeper实战
  27. 4.4 小结
  28. 第5章 ◄MapReduce实战►
  29. 5.1 前期准备
  30. 5.2 查看YARN上的任务
  31. 5.3 加载配置文件
  32. 5.4 MapReduce实战
  33. 5.5 小结
  34. 第6章 ◄HBase实战►
  35. 6.1 HBase简介及架构
  36. 6.2 HBase安装
  37. 6.3 HBase实战
  38. 6.4 小结
  39. 第7章 ◄Hive实战►
  40. 7.1 Hive介绍和架构
  41. 7.2 Hive数据类型和表结构
  42. 7.3 Hive分区、桶与倾斜
  43. 7.4 Hive安装
  44. 7.5 Hive实战
  45. 7.6 小结
  46. 第8章 ◄Scala实战►
  47. 8.1 Scala简介与安装
  48. 8.2 IntelliJ IDEA开发环境搭建
  49. 8.3 IntelliJ IDEA建立Maven项目
  50. 8.4 基础语法
  51. 8.5 函数
  52. 8.6 控制语句
  53. 8.7 函数式编程
  54. 8.8 模式匹配
  55. 8.9 类和对象
  56. 8.10 Scala异常处理
  57. 8.11 Trait(特征)
  58. 8.12 Scala文件I/O
  59. 8.13 作业
  60. 8.14 小结
  61. 第9章 ◄Flume实战►
  62. 9.1 Flume概述
  63. 9.2 Flume的结构
  64. 9.3 Flume安装
  65. 9.4 Flume实战
  66. 9.5 小结
  67. 第10章 ◄Kafka实战►
  68. 10.1 Kafka概述
  69. 10.2 Kafka设计原理
  70. 10.3 Kafka主要配置
  71. 10.4 Kafka客户端操作
  72. 10.5 Java操作Kafka
  73. 10.6 Flume连接Kafka
  74. 10.7 小结
  75. 第11章 ◄Spark实战►
  76. 11.1 Spark概述
  77. 11.2 Spark基本概念
  78. 11.3 Spark算子实战及功能描述
  79. 11.4 Spark Streaming实战
  80. 11.5 Spark SQL和DataFrame实战
  81. 11.6 小结
  82. 第12章 ◄大数据网站日志分析项目►
  83. 12.1 项目介绍
  84. 12.2 网站离线项目
  85. 12.3 网站实时项目
  86. 12.4 小结