logo
分类于: 计算机基础 云计算&大数据 设计 职场办公

简介

大数据技术体系详解:原理、架构与实践

大数据技术体系详解:原理、架构与实践 0.0分

资源最后更新于 2020-03-29 01:12:00

作者:董西成

出版社:出版社机械工业出版社

出版日期:2018-01

ISBN:9787111590729

文件格式: pdf

标签: 计算机 知识 限时特价 大数据 工具书

简介· · · · · ·

随着大数据技术的普及,它已经被广泛应用于互联网、电信、金融、工业制造等诸多行业。据相关报告统计,大数据人才需求呈井喷态势,越来越多的程序员开始学习大数据技术,这使得它已经成为程序员所需的基本技能。为了满足大数据人才市场需求,越来越多的大数据技术书籍不断面世,包括《Hadoop权威指南》《Hadoop实战》等。尽管如此,面向初、中级学者,能够系统化、体系化介绍大数据技术的基础书籍并不多见。笔者曾接触过大量大数据初学者,他们一直渴望能有一本简单且易于理解的教科书式的大数据书籍出现。为了满足这些读者的需求,笔者根据自己多年的数据项目和培训经验,继《Hadoop技术内幕》书籍之后,于两年前开始尝试编写一本浅显易读的大数据基础书籍。董西成,资深hadoop技术专家。本书站在大数据落地应用的角度,系统阐述大数据从数据收集,到数据存储、分布式协调及资源管理、计算引擎、分析工具,再到数据可视化这一完整流程,本书既包含主要技术的实现原理及其框架,也包含了具体落地指导,是帮助企业和个人整体了解大数据框架不可多得的参考书。
直接下载

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 第一部分 概述篇
  3. 第1章 企业级大数据技术体系概述
  4. 1.1 大数据系统产生背景及应用场景
  5. 1.2 企业级大数据技术框架
  6. 1.3 企业级大数据技术实现方案
  7. 1.4 大数据架构:Lambda Architecture
  8. 1.5 Hadoop与Spark版本选择及安装部署
  9. 1.6 小结
  10. 1.7 本章问题
  11. 第二部分 数据收集篇
  12. 第2章 关系型数据的收集
  13. 2.1 Sqoop概述
  14. 2.2 Sqoop基本架构
  15. 2.3 Sqoop使用方式
  16. 2.4 数据增量收集CDC
  17. 2.5 小结
  18. 2.6 本章问题
  19. 第3章 非关系型数据的收集
  20. 3.1 概述
  21. 3.2 Flume NG基本架构
  22. 3.3 Flume NG数据流拓扑构建方法
  23. 3.4 小结
  24. 3.5 本章问题
  25. 第4章 分布式消息队列Kafka
  26. 4.1 概述
  27. 4.2 Kafka设计架构
  28. 4.3 Kafka程序设计
  29. 4.4 Kafka典型应用场景
  30. 4.5 小结
  31. 4.6 本章问题
  32. 第三部分 数据存储篇
  33. 第5章 数据序列化与文件存储格式
  34. 5.1 数据序列化的意义
  35. 5.2 数据序列化方案
  36. 5.3 文件存储格式剖析
  37. 5.4 小结
  38. 5.5 本章问题
  39. 第6章 分布式文件系统
  40. 6.1 背景
  41. 6.2 文件级别和块级别的分布式文件系统
  42. 6.3 HDFS基本架构
  43. 6.4 HDFS关键技术
  44. 6.5 HDFS访问方式
  45. 6.6 小结
  46. 6.7 本章问题
  47. 第7章 分布式结构化存储系统
  48. 7.1 背景
  49. 7.2 HBase数据模型
  50. 7.3 HBase基本架构
  51. 7.4 HBase访问方式
  52. 7.5 HBase应用案例
  53. 7.6 分布式列式存储系统Kudu
  54. 7.7 小结
  55. 7.8 本章问题
  56. 第四部分 分布式协调与资源管理篇
  57. 第8章 分布式协调服务ZooKeeper
  58. 8.1 分布式协调服务的存在意义
  59. 8.2 ZooKeeper数据模型
  60. 8.3 ZooKeeper基本架构
  61. 8.4 ZooKeeper程序设计
  62. 8.5 ZooKeeper应用案例
  63. 8.6 小结
  64. 8.7 本章问题
  65. 第9章 资源管理与调度系统YARN
  66. 9.1 YARN产生背景
  67. 9.2 YARN设计思想
  68. 9.3 YARN的基本架构与原理
  69. 9.4 YARN资源调度器
  70. 9.5 YARN资源隔离
  71. 9.6 以YARN为核心的生态系统
  72. 9.7 资源管理系统Mesos
  73. 9.8 资源管理系统架构演化
  74. 9.9 小结
  75. 9.10 本章问题
  76. 第五部分 大数据计算引擎篇
  77. 第10章 批处理引擎MapReduce
  78. 10.1 概述
  79. 10.2 MapReduce编程模型
  80. 10.3 MapReduce程序设计
  81. 10.4 MapReduce内部原理
  82. 10.5 MapReduce应用实例
  83. 10.6 小结
  84. 10.7 本章问题
  85. 第11章 DAG计算引擎Spark
  86. 11.1 概述
  87. 11.2 Spark编程模型
  88. 11.3 Spark运行模式
  89. 11.4 Spark程序设计实例
  90. 11.5 Spark内部原理
  91. 11.6 DataFrame、Dataset与SQL
  92. 11.7 Spark生态系统
  93. 11.8 小结
  94. 11.9 本章问题
  95. 第12章 交互式计算引擎
  96. 12.1 概述
  97. 12.2 ROLAP
  98. 12.3 MOLAP
  99. 12.4 小结
  100. 12.5 本章问题
  101. 第13章 流式实时计算引擎
  102. 13.1 概述
  103. 13.2 Storm基础与实战
  104. 13.3 Spark Streaming基础与实战
  105. 13.4 流式计算引擎对比
  106. 13.5 小结
  107. 13.6 本章问题
  108. 第六部分 数据分析篇
  109. 第14章 数据分析语言HQL与SQL
  110. 14.1 概述
  111. 14.2 Hive架构
  112. 14.3 Spark SQL架构
  113. 14.4 HQL
  114. 14.5 小结
  115. 14.6 本章问题
  116. 第15章 大数据统一编程模型
  117. 15.1 产生背景
  118. 15.2 Apache Beam基本构成
  119. 15.3 Apache Beam编程模型
  120. 15.4 Apache Beam流式计算模型
  121. 15.5 Apache Beam编程实例
  122. 15.6 小结
  123. 15.7 本章问题
  124. 第16章 大数据机器学习库
  125. 16.1 机器学习库简介
  126. 16.2 MLLib机器学习库
  127. 16.3 小结
  128. 16.4 本章问题