logo
分类于: 编程语言 计算机基础 互联网 云计算&大数据

简介

Hive性能调优实战

Hive性能调优实战 0.0分

资源最后更新于 2020-03-29 02:23:30

作者:林志煌 编著

出版社:出版社机械工业出版社

出版日期:2020-01

ISBN:9787111644323

文件格式: pdf

标签: 科技 互联网 网络 程序设计 数据库

简介· · · · · ·

本书所介绍的实例都是从原理谈优化,让读者知其然也知其所以然。例如,在介绍HiveSQL调优时,我们会转换成计算引擎执行的等价代码,让读者知道HiveSQL的实际运行流程,从而直观地理解其可能引发的性能问题。林志煌,曾在中国互联网头部公司长期从事大数据相关项目的研发。擅长并能够熟练使用Hive、MapReduce和Spark等大数据相关技术。经手过日数据流量TB级别和总量PB级别的Hadoop大数据平台建设。从事过数据采集、数据清洗、数据仓库模型构建及数据产品研发等工作,涵盖了数据生命周期的主要阶段。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 第1章 举例感受Hive性能调优的多样性
  3. 1.1 感受改写SQL对性能的影响
  4. 1.2 感受调整数据块大小对性能的影响
  5. 1.3 感受不同数据格式对性能的提升
  6. 1.4 感受不同的表设计对性能的影响
  7. 1.5 调优其实不难
  8. 第2章 Hive问题排查与调优思路
  9. 2.1 小白推演Hive的优化方法
  10. 2.2 老工对Hive的调优理解
  11. 2.3 总结调优的一般性过程
  12. 第3章 环境搭建
  13. 3.1 Docker基础
  14. 3.2 Cloudera Docker搭建伪分布式环境
  15. 3.3 Docker搭建分布式集群
  16. 3.4 CDM搭建分布式集群
  17. 3.5 使用GitHub开源项目构建集群
  18. 第4章 Hive及其相关大数据组件
  19. 4.1 Hive架构
  20. 4.2 YARN组件
  21. 4.3 HDFS架构
  22. 4.4 计算引擎
  23. 第5章 深入MapReduce计算引擎
  24. 5.1 MapReduce整体处理过程
  25. 5.2 MapReduce作业输入
  26. 5.3 MapReduce的Mapper
  27. 5.4 MapReduce的Reducer
  28. 5.5 MapReduce的Shuffle
  29. 5.6 MapReduce的Map端聚合
  30. 5.7 MapReduce作业输出
  31. 5.8 MapReduce作业与Hive配置
  32. 5.9 MapReduce与Tez对比
  33. 第6章 HiveSQL执行计划
  34. 6.1 查看SQL的执行计划
  35. 6.2 简单SQL的执行计划解读
  36. 6.3 带普通函数/操作符SQL的执行计划解读
  37. 6.4 带聚合函数的SQL执行计划解读
  38. 6.5 带窗口/分析函数的SQL执行计划解读
  39. 6.6 表连接的SQL执行计划解读
  40. 第7章 Hive数据处理模式
  41. 7.1 过滤模式
  42. 7.2 聚合模式
  43. 7.3 连接模式
  44. 第8章 YARN日志
  45. 8.1 查看YARN日志的方式
  46. 8.2 快速查看集群概况
  47. 8.3 查看集群节点概况
  48. 8.4 查看集群的队列调度情况
  49. 8.5 查看集群作业运行信息
  50. 第9章 数据存储
  51. 9.1 文件存储格式之Apache ORC
  52. 9.2 与ORC相关的Hive配置
  53. 9.3 文件存储格式之Apache Parquet
  54. 9.4 数据归档
  55. 第10章 发现并优化Hive中的
  56. 10.1 监控Hive数据库的状态
  57. 10.2 监控当前集群状态
  58. 10.3 定位性能瓶颈
  59. 10.4 数据倾斜
  60. 第11章 Hive知识体系总结
  61. 11.1 Hive知识体系
  62. 11.2 数据粒度
  63. 11.3 SQL相关
  64. 11.4 文件操作