我爱电子书-《Hadoop数据分析》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 云计算&大数据人工智能

简介

Hadoop数据分析豆 0.0分

资源最后更新于 2020-07-12 01:53:05

作者：[美] Benjamin Bengfort

译者：王纯超

出版社：人民邮电出版社

出版日期：2018-01

ISBN：9787115479648

文件格式： pdf

标签：计算机计算科学美国未资源数据平台 hadoop Python Hadoop

简介· · · · · ·

通过提供分布式数据存储和并行计算框架，Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨在通过以可读且直观的方式提供集群计算和分析的概览，为数据科学家深入了解特定主题领域铺平道路，从数据科学家的视角介绍Hadoop集群计算和分析。本书分为两大部分，第一部分从非常高的层次介绍分布式计算，讨论如何在集群上运行计算；第二部分则重点关注数据科学家应该了解的工具和技术，意在为各种分析和大规模数据管理提供动力。

直接下载

前言　　ix
第一部分　分布式计算入门
第1章　数据产品时代　　2
1.1　什么是数据产品　　2
1.2　使用Hadoop构建大规模数据产品　　4
1.2.1　利用大型数据集　　4
1.2.2　数据产品中的Hadoop　　5
1.3　数据科学流水线和Hadoop生态系统　　6
1.4　小结　　8
第2章　大数据操作系统　　9
2.1　基本概念　　10
2.2　Hadoop架构　　11
2.2.1　Hadoop集群　　12
2.2.2　HDFS　　14
2.2.3　YARN　　15
2.3　使用分布式文件系统　　16
2.3.1　基本的文件系统操作　　16
2.3.2　HDFS文件权限　　18
2.3.3　其他HDFS接口　　19
2.4　使用分布式计算　　20
2.4.1　MapReduce：函数式编程模型　　20
2.4.2　MapReduce：集群上的实现　　22
2.4.3　不止一个MapReduce：作业链　　27
2.5　向YARN 提交MapReduce 作业　　28
2.6　小结　　30
第3章　Python 框架和Hadoop Streaming　　31
3.1　Hadoop Streaming　　32
3.1.1　使用Streaming在CSV 数据上运行计算　　34
3.1.2　执行Streaming作业　　38
3.2　Python 的MapReduce框架　　39
3.2.1　短语计数　　42
3.2.2　其他框架　　45
3.3　MapReduce进阶　　46
3.3.1　combiner　　46
3.3.2　partitioner　　47
3.3.3　作业链　　47
3.4　小结　　50
第4章　Spark内存计算　　52
4.1　Spark基础　　53
4.1.1　Spark栈　　54
4.1.2　RDD　　55
4.1.3　使用RDD 编程　　56
4.2　基于PySpark的交互性Spark　　59
4.3　编写Spark应用程序　　61
4.4　小结　　67
第5章　分布式分析和模式　　69
5.1　键计算　　70
5.1.1　复合键　　71
5.1.2　键空间模式　　74
5.1.3　pair与stripe　　78
5.2　设计模式　　80
5.2.1　概要　　81
5.2.2　索引　　85
5.2.3　过滤　　90
5.3　迈向最后一英里分析　　95
5.3.1　模型拟合　　96
5.3.2　模型验证　　97
5.4　小结　　98
第二部分　大数据科学的工作流和工具
第6章　数据挖掘和数据仓　　102
6.1　Hive 结构化数据查询　　103
6.1.1　Hive 命令行接口（CLI）　　103
6.1.2　Hive 查询语言　　104
6.1.3　Hive 数据分析　　108
6.2　HBase　　113
6.2.1　NoSQL 与列式数据库　　114
6.2.2　HBase 实时分析　　116
6.3　小结　　122
第7章　数据采集　　123
7.1　使用Sqoop 导入关系数据　　124
7.1.1　从MySQL 导入HDFS　　124
7.1.2　从MySQL 导入Hive　　126
7.1.3　从MySQL 导入HBase　　128
7.2　使用Flume 获取流式数据　　130
7.2.1　Flume 数据流　　130
7.2.2　使用Flume 获取产品印象数据　　133
7.3　小结　　136
第8章　使用高级API 进行分析　　137
8.1　Pig　　137
8.1.1　Pig Latin　　138
8.1.2　数据类型　　142
8.1.3　关系运算符　　142
8.1.4　用户定义函数　　143
8.1.5　Pig 小结　　144
8.2　Spark 高级API　　144
8.2.1　Spark SQL　　146
8.2.2　DataFrame　　148
8.3　小结　　153
第9章　机器学习　　154
9.1　使用Spark 进行可扩展的机器学习　　154
9.1.1　协同过滤　　156
9.1.2　分类　　161
9.1.3　聚类　　163
9.2　小结　　166
第10章　总结：分布式数据科学实战　　167
10.1　数据产品生命周期　　168
10.1.1　数据湖泊　　169
10.1.2　数据采集　　171
10.1.3　计算数据存储　　172
10.2　机器学习生命周期　　173
10.3　小结　　175
附录A　创建Hadoop 伪分布式开发环境　　176
附录B　安装Hadoop 生态系统产品　　184
术语表　　193
关于作者　　211
关于封面　　211

简介

Hadoop数据分析 豆 0.0分

简介· · · · · ·

目录

猜你喜欢

Excel 2013 应用技巧实例大全

零起步轻松学单片机技术（第2版）: 零起步轻松学单片机技术

Apple Watch 编程指南

Webpack实战：入门、进阶与调优: Web开发技术丛书

PHP 7从零基础到项目实战

Spark核心技术与高级应用

Hadoop数据分析豆 0.0分