注重体验与质量的电子书资源下载网站
分类于: 计算机基础 人工智能 设计
简介
Spark快速数据处理: 大数据技术丛书 豆 5.1分
资源最后更新于 2020-03-29 01:53:05
作者:〔美〕凯洛(Holden Karau)
译者:余璜张磊
出版社:出版社机械工业出版社
出版日期:2014-04
ISBN:9787111463115
文件格式: pdf
标签: 计算机 程序设计 限时特价 大数据技术丛书 数据处理软件
简介· · · · · ·
本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。作者:凯洛(Holden Karau),资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。译者:余璜,阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。张磊,Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。
目录
译者序
作者简介
关于www.PacktPub.com
前言
第1章 安装Spark以及构建Spark集群
1.1 单机运行Spark
1.2 在EC2上运行Spark
1.3 在ElasticMapReduce上部署Spark
1.4 用Chef(opscode)部署Spark
1.5 在Mesos上部署Spark
1.6 在Yarn上部署Spark
1.7 通过SSH部署集群
1.8 链接和参考
1.9 小结
第2章 Spark shell的使用
2.1 加载一个简单的text文件
2.2 用Spark shell运行逻辑回归
2.3 交互式地从S3加载数据
2.4 小结
第3章 构建并运行Spark应用
3.1 用sbt构建Spark作业
3.2 用Maven构建Spark作业
3.3 用其他工具构建Spark作业
3.4 小结
第4章 创建SparkContext
4.1 Scala
4.2 Java
4.3 Java和Scala共享的API
4.4 Python
4.5 链接和参考
4.6 小结
第5章 加载与保存数据
5.1 RDD
5.2 加载数据到RDD中
5.3 保存数据
5.4 链接和参考
5.5 小结
第6章 操作RDD
6.1 用Scala和Java操作RDD
6.1.1 Scala RDD函数
6.1.2 PairRDD连接函数
6.1.3 其他PairRDD函数
6.1.4 DoubleRDD函数
6.1.5 通用RDD函数
6.1.6 Java RDD函数
6.1.7 Spark Java函数类
6.1.8 常用Java RDD函数
6.1.9 JavaPairRDD合并函数
6.1.10 JavaPairRDD函数
6.2 用Python操作RDD
6.2.1 标准RDD函数
6.2.2 PairRDD函数
6.3 链接和参考
6.4 小结
第7章 Shark-Hive和Spark的综合运用
7.1 为什么用Hive/Shark
7.2 安装Shark
7.3 运行Shark
7.4 加载数据
7.5 在Spark程序中运行HiveQL查询
7.6 链接和参考
7.7 小结
第8章 测试
8.1 用Java和Scala测试
8.1.1 为测试而重构
8.1.2 与SparkContext交互测试
8.2 用Python测试
8.3 链接和参考
8.4 小结
第9章 技巧和窍门
9.1 日志位置
9.2 并发限制
9.3 内存使用与垃圾回收
9.4 序列化
9.5 IDE集成环境
9.6 Spark与其他语言
9.7 安全提示
9.8 邮件列表
9.9 链接和参考
9.10 小结