logo
分类于: 编程语言 计算机基础 云计算&大数据 设计

简介

开源大数据分析引擎Impala实战

开源大数据分析引擎Impala实战 6.4分

资源最后更新于 2020-03-29 04:55:32

作者:贾传青

出版社:出版社清华大学出版社

出版日期:2015-03

ISBN:9787302390022

文件格式: pdf

标签: 计算机 编程 限时特价 大数据 代码

简介· · · · · ·

Impala是 Cloudera公司主导开发的新型查询系统,它提供 SQL语义,能查询存储在 Hadoop的 HDFS和 HBase中的 PB级大数据。Impala 1.0版比原来基于 MapReduce的 Hive SQL查询速度提升 3~90倍,因此, Impala有可能完全取代 Hive。作者基于自己在本职工作中应用 Impala的实践和心得编写了本书。 本书共分 10章,全面介绍开源大数据分析引擎 Impala的技术背景、安装与配置、架构、操作方法、性能优化,以及最富技术含量的应用设计原则和应用案例。本书紧扣目前计算技术发展热点,适合所有大数据分析人员、大数据开发人员和大数据管理人员参考使用。
直接下载

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. Cloudera官方推荐序(中文)
  2. Cloudera官方推荐序(英文)
  3. 推荐序二
  4. 推荐序三
  5. 推荐序四
  6. 推荐序五
  7. 推荐序六
  8. 推荐序七
  9. 作者序
  10. 第1章 Impala概述、安装与配置
  11. 1.1 Impala概述
  12. 1.2 Cloudera Manager安装准备
  13. 1.安装环境(如下表所示)
  14. 2. CM支持的操作系统(如下表所示)
  15. 3.支持的数据库
  16. 4.支持的JDK版本
  17. 5.支持的IP协议
  18. 6. yum源配置
  19. 7.对RPM文件建立索引
  20. 8.关闭SELinux安全选项
  21. 9.关闭防火墙
  22. 10.对等性配置
  23. 11.配置时间同步
  24. 12.配置内核参数
  25. 13.配置图形界面
  26. 14.下载cIoudera-manager-instaIIer.bin
  27. 1.3 CM及CDH安装
  28. 1.启动CM安装
  29. 1.4 Hive安装
  30. 1.5 Impala安装
  31. 第2章 Impala入门示例
  32. 2.1 数据加载
  33. 1.准备数据
  34. 2.创建表
  35. 3.加载数据
  36. 2.2 数据查询
  37. 1.聚集和关联操作
  38. 2.带有子查询的聚集和关联操作
  39. 2.3 分区表
  40. 2.4 外部分区表
  41. 2.5 笛卡尔连接
  42. 2.6 更新元数据
  43. 第3章 Impala概念及架构
  44. 3.1 Impala服务器组件
  45. 3.1.1 Impala Daemon
  46. 3.1.2 Impala Statestore
  47. 3.1.3 Impala Catalog
  48. 3.2 Impala应用编程
  49. 3.2.1 Impala SQL方言
  50. 3.2.2 Impala编程接口概述
  51. 3.3 与Hadoop生态系统集成
  52. 3.3.1 与Hive集成
  53. 3.3.2 与HDFS集成
  54. 3.3.3 使用HBase
  55. 第4章 SQL语句
  56. 4.1 注释
  57. 1.注释符号“-”
  58. 2.注释符号“/*…*/”
  59. 4.2 数据类型
  60. 4.2.1 BIGINT
  61. 4.2.2 BOOLEAN
  62. 4.2.3 DOUBLE
  63. 4.2.4 FLOAT
  64. 4.2.5 INT
  65. 4.2.6 REAL
  66. 4.2.7 SMALLINT
  67. 4.2.8 STRING
  68. 4.2.9 TIMESTAMP
  69. 4.2.10 TINYINT
  70. 4.3 常量
  71. 4.3.1 数值常量
  72. 4.3.2 字符串常量
  73. 4.3.3 布尔常量
  74. 4.3.4 时间戳常量
  75. 4.3.5 NULL
  76. 4.4 SQL操作符
  77. 4.4.1 BETWEEN操作符
  78. 4.4.2 比较操作符
  79. 4.4.3 IN操作符
  80. 4.4.4 IS NULL操作符
  81. 4.4.5 LIKE操作符
  82. 4.4.6 REGEXP操作符
  83. 4.5 模式对象和对象名称
  84. 4.5.1 别名
  85. 4.5.2 标示符
  86. 4.5.3 数据库
  87. 4.5.4 表
  88. 1.内部表
  89. 2.外部表
  90. 4.5.5 视图
  91. 4.5.6 函数
  92. 4.6 SQL语句
  93. 4.6.1 ALTER TABLE
  94. 4.6.2 ALTER VIEW
  95. 4.6.3 COMPUTE STATS
  96. 4.6.4 CREATE DATABASE
  97. 4.6.5 CREATE FUNCTION
  98. 4.6.6 CREATE TABLE
  99. 4.6.7 CREATE VIEW
  100. 4.6.8 DESCRIBE
  101. 4.6.9 DROP DATABASE
  102. 4.6.10 DROP FUNCTION
  103. 4.6.11 DROP TABLE
  104. 4.6.12 DROP VIEW
  105. 4.6.13 EXPLAIN
  106. 4.6.14 INSERT
  107. 4.6.15 INVALIDATE METADATA
  108. 4.6.16 LOAD DATA
  109. 4.6.17 REFRESH
  110. 4.6.18 SELECT
  111. 1. Impala的SELECT查询支持:
  112. 2. JOIN
  113. 3. SQL-92和SQL-89连接
  114. 4.自连接
  115. 5.笛卡尔连接
  116. 6.内连接和外连接
  117. 7.等值连接和非等值连接
  118. 8.半连接
  119. 9. ORDER BY子句
  120. 10. GROUP BY子句
  121. 11.HAVING子句
  122. 12.LIMIT子句
  123. 13.OFFSET子句
  124. 14.UNION子句
  125. 15. WITH子句
  126. 16.Hints
  127. 17.DISTINCT操作符
  128. 4.6.19 SHOW
  129. 4.6.20 USE
  130. 4.7 内嵌函数
  131. 4.7.1 数学函数
  132. 4.7.2 类型转换函数
  133. 4.7.3 时间和日期函数
  134. 4.7.4 条件函数
  135. 4.7.5 字符串函数
  136. 4.7.6 特殊函数
  137. 4.8 聚集函数
  138. 4.8.1 AVG
  139. 4.8.2 COUNT
  140. 4.8.3 GROUP_CONCAT
  141. 4.8.4 MAX
  142. 4.8.5 MIN
  143. 4.8.6 NDV
  144. 4.8.7 SUM
  145. 4.9 用户自定义函数UDF
  146. 4.9.1 UDF概念
  147. 1.UDF和UDAF
  148. 2.本地Impala UDF
  149. 3.使用Hive UDF
  150. 4.9.2 安装UDF开发包
  151. 4.9.3 编写UDF
  152. 1.UDF编程例子
  153. 2.函数的输入参数和返回值的数据类型
  154. 3.可变长参数列表
  155. 4.捕获NULL值
  156. 5.UDF的内存分配
  157. 6.UDF线程安全工作区
  158. 7.UDF错误捕获
  159. 4.9.4 编写UDAF
  160. 4.9.5 编译和部署UDF
  161. 4.9.6 UDF性能
  162. 4.9.7 创建和使用UDF示例
  163. 4.9.8 UDF安全
  164. 4.9.9 Impala UDF的限制
  165. 4.10 Impala SQL&Hive QL
  166. 4.11 将SQL移植到Impala上
  167. 1.移植DDL和DML语句
  168. 2.数据类型迁移
  169. 3.SQL语句迁移
  170. 4.仔细检查SQL结构
  171. 5.校验语法语义,执行迁移
  172. 第5章 Impala shell
  173. 5.1 命令行选项
  174. 5.2 连接到Impalad
  175. 1.启动impala-shell
  176. 2.使用connect连接到Impala实例
  177. 5.3 运行命令
  178. 5.4 命令参考
  179. 5.5 查询参数设置
  180. 第6章 Impala管理
  181. 6.1 准入控制和查询队列
  182. 6.1.1 准入控制概述
  183. 6.1.2 准入控制和YARN
  184. 6.1.3 并发查询限制
  185. 6.1.4 准入控制和Impala客户端协同工作
  186. 6.1.5 配置准入控制
  187. 1.使用CIoudera Manager配置
  188. 2.手动配置
  189. 3.准入控制配置示例
  190. 6.1.6 使用准入控制指导原则
  191. 6.2 使用YARN资源管理(CDH5)
  192. 6.2.1 Llama进程
  193. 6.2.2 检查计算的资源和实际使用的资源
  194. 6.2.3 资源限制如何生效
  195. 6.2.4 启用Impala资源管理
  196. 6.2.5 资源管理相关impala-shell参数
  197. 6.2.6 Impala资源管理的限制
  198. 6.3 为进程,查询,会话设定超时限制
  199. 1.增加Statestore超时参数
  200. 2.为impalad设定空闲超时
  201. 6.4 通过代理实现Impala高可用性
  202. 1.使用Kerberos
  203. 2.HAProxy配置示例
  204. 3.配置文件haproxy.cfg示例
  205. 6.5 管理磁盘空间
  206. 第7章 Impala存储
  207. 7.1 文件格式选择
  208. 7.2 Text
  209. 7.2.1 查询性能
  210. 7.2.2 创建文本表
  211. 7.2.3 数据文件
  212. 7.2.4 加载数据
  213. 7.2.5 LZO压缩
  214. 1.使用LZO准备工作
  215. 2.创建LZO文本表
  216. 7.3 Parquet
  217. 7.3.1 创建Parquet表
  218. 7.3.2 加载数据
  219. 7.3.3 查询性能
  220. 7.3.4 Snappy/Gzip压缩
  221. 1.Snappy压缩示例
  222. 2.Gzip压缩示例
  223. 3.不压缩示例
  224. 4.Parquet压缩对比测试示例
  225. 5.拷贝Parquet数据文件示例
  226. 7.3.5 与其他组件交换Parquet数据文件
  227. 7.3.6 Parquet数据文件组织方式
  228. 1.RLE和数据字典编码
  229. 2.压缩数据文件
  230. 3.模式进化
  231. 7.4 Avro
  232. 7.4.1 创建Avro表
  233. 7.4.2 使用Hive创建的Avro表
  234. 7.4.3 通过JSON指定Avro模式
  235. 7.4.4 启用压缩
  236. 7.4.5 模式进化
  237. 7.5 RCFile
  238. 7.5.1 创建RCFile表和加载数据
  239. 7.5.2 启用压缩
  240. 7.6 SequenceFile
  241. 7.6.1 创建和加载数据
  242. 7.6.2 启用压缩
  243. 7.7 HBase
  244. 7.7.1 支持的HBase列类型
  245. 7.7.2 性能问题
  246. 1.执行计划
  247. 2.配置HBase Java应用参数
  248. 7.7.3 适用场景
  249. 7.7.4 数据加载
  250. 7.7.5 启用压缩
  251. 7.7.6 限制
  252. 7.7.7 示例
  253. 1.字符串类型行键
  254. 2.非字符串类型行键
  255. 第8章 Impala分区
  256. 8.1 分区技术适用场合
  257. 8.2 分区表相关SQL语句
  258. 8.3 分区修剪
  259. 8.4 分区键列
  260. 8.5 使用不同的文件格式
  261. 第9章 Impala性能优化
  262. 9.1 最佳实践
  263. 9.2 连接查询优化
  264. 1.当统计信息不可用时如何关联
  265. 2.使用STRAIGHT_JOIN覆盖连接顺序
  266. 3.连接顺序优化示例
  267. 9.3 使用统计信息
  268. 1.表统计信息
  269. 2.列统计信息
  270. 3.通过ALTER TABLE手动设置统计信息
  271. 4.统计信息使用示例
  272. 9.4 基准测试
  273. 9.5 控制资源使用
  274. 9.6 性能测试
  275. 1.检查Impala配置信息
  276. 2.检查数据本地性
  277. 3.问题排查步骤
  278. 4.检查日志信息
  279. 5.理解查询性能
  280. 9.7 使用EXPLAIN信息
  281. 9.8 使用PROFILE信息
  282. 第10章 Impala设计原则与应用案例
  283. 10.1 设计原则
  284. 1.硬件规划
  285. 2.模型设计
  286. 3.数据加载
  287. 4.数据处理
  288. 5.数据返回
  289. 10.2 应用案例
  290. 1.硬件规划
  291. 2.模型设计
  292. 3.数据加载
  293. 4.数据处理
  294. 5.数据返回