logo
分类于: 计算机基础 云计算&大数据 人工智能 职场办公

简介

大数据技术入门

大数据技术入门 0.0分

资源最后更新于 2020-03-29 02:26:18

作者:杨正洪

出版社:出版社清华大学出版社

出版日期:2016-08

ISBN:9787302442837

文件格式: pdf

标签: 技术 计算机 大数据 数据处理

简介· · · · · ·

从2015年开始,国内大数据市场继续保持高速的发展态势,作者在与地方政府、证券金融公司的项目合作中发现,他们对大数据技术很感兴趣,并希望从大数据技术、大数据采集、管理、分析以及可视化等方面得到指导和应用帮助。因此编写了这本大数据技术的快速入门书。 本书共12章,以Hadoop和Spark框架为线索,比较全面地介绍了Hadoop技术、Spark技术、大数据存储、大数据访问、大数据采集、大数据管理、大数据分析等内容。最后还给出两个案例:环保大数据和公安大数据,供读者参考。 本书适合大数据技术初学者,政府、金融机构的大数据应用决策和技术人员,IT经理,CTO,CIO等快速学习大数据技术。本书也可以作为高等院校和培训学校相关专业的培训教材。杨正洪,是国内知名大数据专家,毕业于美国State University of New York at Stony Brook,在IBM公司从事大数据相关研发工作12年多。从2003~2013年,杨正洪在美国加州的IBM硅谷实验室(IBM Silicon Valley Lab)负责IBM大数据平台的设计、研发和实施,主持了保险行业、金融行业、政府行业的大数据系统的架构设计和实施。杨正洪是华中科技大学和中国地质大学客座教授,拥有国家专利,是湖北省2013年海外引进人才。受武汉市政府邀请,杨正洪于2012年12月发起成立武汉市云升科技发展有限公司,并获得东湖高新技术开发区办公场所和资金支持。目前公司在浙江和上海分别有全资子公司,在美国硅谷设有研发中心。公司的核心产品是大数据管理平台EasyDoop,并以EasyDoop为基础研发了公安大数据产品和环保大数据产品。这些产品在公安和环保行业得到成功实施,三次被中央电视台新闻联播节目播报,省部长级政府领导亲自考察,并给予了很高的评价。杨正洪参与了多项大数据相关标准的制定工作,曾受邀参与了公安部主导的“信息安全技术-大数据平台安全管理产品安全技术要求”的国家标准制定。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 第1章 大数据时代
  3. 1.1 什么是大数据
  4. 1.2 大数据的四大特征
  5. 1.3 大数据的商用化
  6. 1.4 大数据分析
  7. 1.5 大数据与云计算的关系
  8. 1.6 大数据的国家战略
  9. 1.6.1 政府大数据的价值
  10. 1.6.2 政府大数据的应用场景
  11. 1.7 企业如何迎接大数据
  12. 1.7.1 评估大数据方案的维度
  13. 1.7.2 业务价值维度
  14. 1.7.3 数据维度
  15. 1.7.4 现有IT环境和成本维度
  16. 1.7.5 数据治理维度
  17. 1.8 大数据产业链分析
  18. 1.8.1 技术分析
  19. 1.8.2 角色分析
  20. 1.8.3 大数据运营
  21. 1.9 大数据交易
  22. 1.10 大数据之我见
  23. 第2章 大数据软件框架
  24. 2.1 Hadoop框架
  25. 2.1.1 HDFS(分布式文件系统)
  26. 2.1.2 MapReduce(分布式计算框架)
  27. 2.1.3 YARN(集群资源管理器)
  28. 2.1.4 Zookeeper(分布式协作服务)
  29. 2.1.5 Ambari(管理工具)
  30. 2.2 Spark(内存计算框架)
  31. 2.2.1 Scala
  32. 2.2.2 Spark SQL
  33. 2.2.3 Spark Streaming
  34. 2.3 实时流处理框架
  35. 2.4 框架的选择
  36. 第3章 安装与配置大数据软件
  37. 3.1 Hadoop发行版
  38. 3.1.1 Cloudera
  39. 3.1.2 HortonWorks
  40. 3.1.3 MapR
  41. 3.2 安装Hadoop前的准备工作
  42. 3.2.1 Linux主机配置
  43. 3.2.2 配置Java环境
  44. 3.2.3 安装NTP和python
  45. 3.2.4 安装和配置openssl
  46. 3.2.5 启动和停止特定服务
  47. 3.2.6 配置SSH无密码访问
  48. 3.3 安装Ambari和HDP
  49. 3.3.1 配置安装包文件
  50. 3.3.2 安装Ambari
  51. 3.3.3 安装和配置HDP
  52. 3.4 初识Hadoop
  53. 3.4.1 启动和停止服务
  54. 3.4.2 使用HDFS
  55. 3.5 Hadoop的特性
  56. 第4章 大数据存储:文件系统
  57. 4.1 HDFS shell命令
  58. 4.2 HDFS配置文件
  59. 4.3 HDFS API编程
  60. 4.3.1 读取HDFS文件内容
  61. 4.3.2 写HDFS文件内容
  62. 4.4 HDFS API总结
  63. 4.4.1 Configuration类
  64. 4.4.2 FileSystem抽象类
  65. 4.4.3 Path类
  66. 4.4.4 FSDataInputStream类
  67. 4.4.5 FSDataOutputStream类
  68. 4.4.6 IOUtils类
  69. 4.4.7 FileStatus类
  70. 4.4.8 FsShell类
  71. 4.4.9 ChecksumFileSystem抽象类
  72. 4.4.10 其他HDFS API实例
  73. 4.4.11 综合实例
  74. 4.5 HDFS文件格式
  75. 4.5.1 SequenceFile
  76. 4.5.2 TextFile(文本格式)
  77. 4.5.3 RCFile
  78. 4.5.4 Avro
  79. 第5章 大数据存储:数据库
  80. 5.1 NoSQL
  81. 5.2 HBase管理
  82. 5.2.1 HBase表结构
  83. 5.2.2 HBase系统架构
  84. 5.2.3 启动并操作HBase数据库
  85. 5.2.4 HBase Shell工具
  86. 5.3 HBase编程
  87. 5.3.1 增删改查API
  88. 5.3.2 过滤器
  89. 5.3.3 计数器
  90. 5.3.4 原子操作
  91. 5.3.5 管理API
  92. 5.4 其他NoSQL数据库
  93. 第6章 大数据访问:SQL引擎层
  94. 6.1 Phoenix
  95. 6.1.1 安装和配置Phoenix
  96. 6.1.2 在eclipse上开发phoenix程序
  97. 6.1.3 Phoenix SQL工具
  98. 6.1.4 Phoenix SQL语法
  99. 6.2 Hive
  100. 6.2.1 Hive架构
  101. 6.2.2 安装Hive
  102. 6.2.3 Hive和MySQL的配置
  103. 6.2.4 Hive CLI
  104. 6.2.5 Hive数据类型
  105. 6.2.6 HiveQL DDL
  106. 6.2.7 HiveQL DML
  107. 6.2.8 Hive编程
  108. 6.2.9 HBase集成
  109. 6.2.10 XML和JSON数据
  110. 6.2.11 使用Tez
  111. 6.3 Pig
  112. 6.3.1 Pig语法
  113. 6.3.2 Pig和Hive的使用场景比较
  114. 6.4 ElasticSearch(全文搜索引擎)
  115. 6.4.1 全文索引的基础知识
  116. 6.4.2 安装和配置ES
  117. 6.4.3 ES API
  118. 第7章 大数据采集和导入
  119. 7.1 Flume
  120. 7.1.1 Flume架构
  121. 7.1.2 Flume事件
  122. 7.1.3 Flume源
  123. 7.1.4 Flume拦截器(Interceptor)
  124. 7.1.5 Flume通道选择器(Channel Selector)
  125. 7.1.6 Flume通道
  126. 7.1.7 Flume接收器
  127. 7.1.8 负载均衡和单点失败
  128. 7.1.9 Flume监控管理
  129. 7.1.10 Flume实例
  130. 7.2 Kafka
  131. 7.2.1 Kafka架构
  132. 7.2.2 Kafka与JMS的异同
  133. 7.2.3 Kafka性能考虑
  134. 7.2.4 消息传送机制
  135. 7.2.5 Kafka和Flume的比较
  136. 7.3 Sqoop
  137. 7.3.1 从数据库导入HDFS
  138. 7.3.2 增量导入
  139. 7.3.3 将数据从Oracle导入Hive
  140. 7.3.4 将数据从Oracle导入HBase
  141. 7.3.5 导入所有表
  142. 7.3.6 从HDFS导出数据
  143. 7.3.7 数据验证
  144. 7.3.8 其他Sqoop功能
  145. 7.4 Storm
  146. 7.4.1 Storm基本概念
  147. 7.4.2 spout
  148. 7.4.3 bolt
  149. 7.4.4 拓扑
  150. 7.4.5  Storm总结
  151. 7.5 Splunk
  152. 第8章 大数据管理平台
  153. 8.1 大数据建设总体架构
  154. 8.2 大数据管理平台的必要性
  155. 8.3 大数据管理平台的功能
  156. 8.3.1 推进数据资源全面整合共享
  157. 8.3.2 增强数据管理水平
  158. 8.3.3 支撑创新大数据分析
  159. 8.4 数据管理平台(DMP)
  160. 8.5 EasyDoop案例分析
  161. 8.5.1 大数据建模平台
  162. 8.5.2 大数据交换和共享平台
  163. 8.5.3 大数据云平台
  164. 8.5.4 大数据服务平台
  165. 8.5.5 EasyDoop平台技术原理分析
  166. 第9章 Spark技术
  167. 9.1 Spark框架
  168. 9.1.1 安装Spark
  169. 9.1.2 配置Spark
  170. 9.2 Spark Shell
  171. 9.3 Spark编程
  172. 9.3.1 编写Spark API程序
  173. 9.3.2 使用sbt编译并打成jar包
  174. 9.3.3 运行程序
  175. 9.4 RDD
  176. 9.4.1 RDD算子和RDD依赖关系
  177. 9.4.2 RDD转换操作
  178. 9.4.3 RDD行动(Action)操作
  179. 9.4.4 RDD控制操作
  180. 9.4.5 RDD实例
  181. 9.5 Spark SQL
  182. 9.5.1 DataFrame
  183. 9.5.2 RDD转化为DataFrame
  184. 9.5.3 JDBC数据源
  185. 9.5.4 Hive数据源
  186. 9.6 Spark Streaming
  187. 9.6.1 DStream编程模型
  188. 9.6.2 DStream操作
  189. 9.6.3 性能考虑
  190. 9.6.4 容错能力
  191. 9.7 GraphX图计算框架
  192. 9.7.1 属性图
  193. 9.7.2 图操作符
  194. 9.7.3 属性操作
  195. 9.7.4 结构操作
  196. 9.7.5 关联(join)操作
  197. 9.7.6 聚合操作
  198. 9.7.7 计算度信息
  199. 9.7.8 缓存操作
  200. 9.7.9 图算法
  201. 第10章 大数据分析
  202. 10.1 数据科学
  203. 10.1.1 探索性数据分析
  204. 10.1.2 描述统计
  205. 10.1.3 数据可视化
  206. 10.2 预测分析
  207. 10.2.1 预测分析实例
  208. 10.2.2 回归(Regression)分析预测法
  209. 10.3 机器学习
  210. 10.3.1 机器学习的市场动态
  211. 10.3.2 机器学习分类
  212. 10.3.3 机器学习算法
  213. 10.4 Spark MLib
  214. 10.4.1 MLib架构
  215. 10.4.2 MLib算法库
  216. 10.4.3 决策树
  217. 10.5 深入了解算法
  218. 10.5.1 分类算法
  219. 10.5.2 预测算法
  220. 10.5.3 聚类分析
  221. 10.5.4 关联分析
  222. 10.5.5 异常值分析算法
  223. 10.5.6 协同过滤(推荐引擎)算法
  224. 10.6 Mahout简介
  225. 第11章 案例分析:环保大数据
  226. 11.1 环保大数据管理平台
  227. 11.2 环保大数据应用平台
  228. 11.2.1 环境自动监测监控服务
  229. 11.2.2 综合查询服务
  230. 11.2.3 统计分析服务
  231. 11.2.4 GIS服务
  232. 11.2.5 视频服务
  233. 11.2.6 预警服务
  234. 11.2.7 应急服务
  235. 11.2.8 电子政务服务
  236. 11.2.9 智能化运营管理系统
  237. 11.2.10 环保移动应用系统
  238. 11.2.11 空气质量发布系统
  239. 11.3 环保大数据分析系统
  240. 第12章 案例分析:公安大数据
  241. 12.1 总体架构设计
  242. 12.2 建设内容
  243. 12.3 建设步骤
  244. 附录 1 数据量的单位级别
  245. 附录 2 Linux Shell常见命令
  246. 附录 3 Ganglia(分布式监控系统)
  247. 附录 4 auth-ssh脚本
  248. 附录 5 作者简介