logo
分类于: 计算机基础 互联网 云计算&大数据 人工智能

简介

大数据系统构建: 可扩展实时数据系统构建原理与最佳实践

大数据系统构建: 可扩展实时数据系统构建原理与最佳实践 7.8分

资源最后更新于 2020-03-29 04:35:48

作者:〔美〕南森·马茨〔美〕詹姆斯·沃伦

译者:马延辉向磊魏东琦

出版社:出版社机械工业出版社

出版日期:2016-12

ISBN:9787111552949

文件格式: pdf

标签: 技术 网络 计算机 大数据

简介· · · · · ·

本书将教你充分利用集群硬件优势的Lambda架构,以及专门用来捕获和分析网络规模数据的新工具,来创建这些系统。它将描述一个可扩展的、易于理解大数据系统的方法——可以由小团队构建并运行。本书共18章,除了介绍基本概念,其他章节采用“理论+示例”的方式来阐释相关概念,并使用现实世界中的工具加以论证。其中,第1章介绍了数据系统的原理,给出了Lambda架构的概述,并概述了构建任何数据系统的广义方法。第2~9章集中阐述Lambda架构的批处理层。第10章和第11章集中阐述服务层,让读者了解只批量写入的特定数据库——这些数据库比传统数据库更简单,它们具有出色的性能,并具备可操作性、稳健性等特点。第12~17章集中阐述速度层,让读者更明确地了解NoSQL数据库、流处理和管理增量计算的复杂性。 第18章通过综合回顾Lambda架构的相关知识,帮助读者了解增量批处理、基本Lambda架构的变种,以及如何充分利用资源。马延辉,资深Hadoop技术专家,对Hadoop生态系统相关技术有着深刻的理解,在Hadoop开发和运维方面积累了丰富的经验。曾就职于阿里、Answers.com、暴风等互联网公司,从事Hadoop相关的研发和运维工作,对大数据技术的企业级落地、研发、运维和管理有着深刻的理解和丰富的实战经验。开源HBase监控工具Ella作者。现在致力于大数据技术在传统行业的落地和大数据技术的普及和推广。向磊,前暴风影音数据平台架构师,目前在某垂直电商平台担任技术总监,惠普中国Hadoop相关课程讲师。开源项目EasyHadoop、phpHiveAdmin作者,对Hadoop及其周边生态系统的底层运维及开发、集群自动化运维、网络架构设计、集群安全、性能优化、嵌入式编程方面有较深入了解。魏东琦,博士,长期从事软件研发工作,现就职于中国地质调查局西安地质调查中心,参加、承担过多项科研项目。现致力于地质行业与大数据技术融合的相关研究工作。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 译者序
  2. 前言
  3. 关于本书
  4. 致谢
  5. 第1章 大数据的新范式
  6. 1.1 本书是如何组织的
  7. 1.2 扩展传统数据库
  8. 1.3 NoSQL不是万能的
  9. 1.4 基本原理
  10. 1.5 大数据系统应有的属性
  11. 1.6 全增量架构的问题
  12. 1.7 Lambda架构
  13. 1.8 技术上的最新趋势
  14. 1.9 示例应用:SuperWebAnalytics.com
  15. 1.10 总结
  16. 第一部分 批处理层
  17. 第2章 大数据的数据模型
  18. 2.1 数据的属性
  19. 2.2 基于事实的数据表示模型
  20. 2.3 图模式
  21. 2.4 SuperWebAnalytics.com的完整数据模型
  22. 2.5 总结
  23. 第3章 大数据的数据模型:示例
  24. 3.1 为什么使用序列化框架
  25. 3.2 Apache Thrift
  26. 3.3 序列化框架的局限性
  27. 3.4 总结
  28. 第4章 批处理层的数据存储
  29. 4.1 主数据集的存储需求
  30. 4.2 为批处理层选择存储方案
  31. 4.3 分布式文件系统是如何工作的
  32. 4.4 使用分布式文件系统存储主数据集
  33. 4.5 垂直分区
  34. 4.6 分布式文件系统的底层性质
  35. 4.7 在分布式文件系统上存储SuperWebAnalytics.com的主数据集
  36. 4.8 总结
  37. 第5章 批处理层的数据存储:示例
  38. 5.1 使用HDFS
  39. 5.2 使用Pail在批处理层存储数据
  40. 5.3 存储SuperWebAnalytics.com的主数据集
  41. 5.4 总结
  42. 第6章 批处理层
  43. 6.1 启发性示例
  44. 6.2 批处理层上的计算
  45. 6.3 重新计算算法与增量算法
  46. 6.4 批处理层中的可扩展性
  47. 6.5 MapReduce:一种大数据计算的范式
  48. 6.6 MapReduce的底层特性
  49. 6.7 管道图——一种关于批处理计算的高级思维方式
  50. 6.8 总结
  51. 第7章 批处理层:示例
  52. 7.1 一个例证
  53. 7.2 数据处理工具的常见陷阱
  54. 7.3 JCascalog介绍
  55. 7.4 组合
  56. 7.5 总结
  57. 第8章 批处理层示例:架构和算法
  58. 8.1 SuperWebAnalytics.com批处理层的设计
  59. 8.2 工作流概述
  60. 8.3 获取新数据
  61. 8.4 URL规范化
  62. 8.5 用户标识符规范化
  63. 8.6 页面浏览去重
  64. 8.7 计算批处理视图
  65. 8.8 总结
  66. 第9章 批处理层示例:实现
  67. 9.1 出发点
  68. 9.2 准备工作流
  69. 9.3 获取新数据
  70. 9.4 URL规范化
  71. 9.5 用户标识符规范化
  72. 9.6 页面浏览去重
  73. 9.7 计算批处理视图
  74. 9.8 总结
  75. 第二部分 服务层
  76. 第10章 服务层概述
  77. 10.1 服务层的性能指标
  78. 10.2 规范化/非规范化问题的服务层解决方案
  79. 10.3 服务层数据库的需求
  80. 10.4 设计SuperWebAnalytics.com的服务层
  81. 10.5 对比全增量的解决方案
  82. 10.6 总结
  83. 第11章 服务层:示例
  84. 11.1 ElephantDB的基本概念
  85. 11.2 创建SuperWebAnalytics.com的服务层
  86. 11.3 总结
  87. 第三部分 速度层
  88. 第12章 实时视图
  89. 12.1 计算实时视图
  90. 12.2 存储实时视图
  91. 12.3 增量计算的挑战
  92. 12.4 异步更新与同步更新
  93. 12.5 过期实时视图
  94. 12.6 总结
  95. 第13章 实时视图:示例
  96. 13.1 Cassandra的数据模型
  97. 13.2 使用Cassandra
  98. 13.3 总结
  99. 第14章 队列和流处理
  100. 14.1 队列
  101. 14.2 流处理
  102. 14.3 更高层次的一次一个的流处理
  103. 14.4 SuperWebAnalytics.com速度层
  104. 14.5 总结
  105. 第15章 队列和流处理:示例
  106. 15.1 使用Apache Storm定义拓扑结构
  107. 15.2 Apache Storm集群及其部署
  108. 15.3 保证消息处理
  109. 15.4 实现SuperWebAnalytics.com给定时间范围内的独立访客的速度层
  110. 15.5 总结
  111. 第16章 微批量流处理
  112. 16.1 实现有且仅有一次语义
  113. 16.2 微批量流处理的核心概念
  114. 16.3 微批量流处理的扩展管道图
  115. 16.4 完成SuperWebAnalytics.com的速度层
  116. 16.5 另一个跳出率分析示例
  117. 16.6 总结
  118. 第17章 微批量流处理:示例
  119. 17.1 使用Trident
  120. 17.2 完成SuperWebAnalytics.com的速度层
  121. 17.3 完全容错、基于内存及微批量处理
  122. 17.4 总结
  123. 第18章 深入Lambda架构
  124. 18.1 定义数据系统
  125. 18.2 批处理层和服务层
  126. 18.3 速度层
  127. 18.4 查询层
  128. 18.5 总结