我爱电子书-《Spark大数据分析实战》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 编程语言计算机基础互联网云计算&大数据

简介

Spark大数据分析实战豆 0.0分

资源最后更新于 2020-03-29 02:58:21

作者：高彦杰倪亚宇

出版社：出版社机械工业出版社

出版日期：2016-01

文件格式： pdf

标签：互联网编程大数据数据库大数据技术丛书

简介· · · · · ·

作为一个通用大数据计算框架，Spark广泛应用于多种典型大数据分析场景。通过这本书，你将了解到：Spark的机制与生态系统，Spark算法分析与应用，典型的数据分析场景，Spark在日志分析、情感分析、协同过滤、个性化推荐、社交网络分析、搜索、文本分析等场景的应用，Spnrk与其他开源工具及系统的集成。Spark已经在全球范围内被广泛使用，无沦是微软、Intel、阿里巴巴、百度、腾讯等国际互联网巨头，还是一些初创公司，都在使用Spark。本书作者结合实战经验，编写了这本书。本书抽象出典型数据分析应用场景，适当简化，只进行主干介绍，讲解Spark应用开发、数据分析算法，并结合其他开源系统与组件，勾勒出数据分析流水线全貌。高彦杰倪亚宇著

直接下载

简介

Spark大数据分析实战 豆 0.0分

简介· · · · · ·

目录

前言

第1章 Spark简介

1.1 初识Spark

1.2 Spark生态系统BDAS

1.3 Spark架构与运行逻辑

1.4 弹性分布式数据集

1.4.1 RDD简介

1.4.2 RDD算子分类

1.5 本章小结

第2章 Spark开发与环境配置

2.1 Spark应用开发环境配置

2.1.1 使用Intellij开发Spark程序

2.1.2 使用SparkShell进行交互式数据分析

2.2 远程调试Spark程序

2.3 Spark编译

2.4 配置Spark源码阅读环境

2.5 本章小结

第3章 BDAS简介

3.1 SQL on Spark

3.1.1 为什么使用Spark SQL

3.1.2 Spark SQL架构分析

3.2 Spark Streaming

3.2.1 Spark Streaming简介

3.2.2 Spark Streaming架构

3.2.3 Spark Streaming原理剖析

3.3 GraphX

3.3.1 GraphX简介

3.3.2 GraphX的使用简介

3.3.3 GraphX体系结构

3.4 MLlib

3.4.1 MLlib简介

3.4.2 MLlib中的聚类和分类

3.5 本章小结

第4章 Lamda架构日志分析流水线

4.1 日志分析概述

4.2 日志分析指标

4.3 Lamda架构

4.4 构建日志分析数据流水线

4.4.1 用Flume进行日志采集

4.4.2 用Kafka将日志汇总

4.4.3 用Spark Streaming进行实时日志分析

4.4.4 Spark SQL离线日志分析

4.4.5 用Flask将日志KPI可视化

4.5 本章小结

第5章 基于云平台和用户日志的推荐系统

5.1 Azure云平台简介

5.1.1 Azure网站模型

5.1.2 Azure数据存储

5.1.3 Azure Queue消息传递

5.2 系统架构

5.3 构建Node.js应用

5.3.1 创建Azure Web应用

5.3.2 构建本地Node.js网站

5.3.3 发布应用到云平台

5.4 数据收集与预处理

5.4.1 通过JS收集用户行为日志

5.4.2 用户实时行为回传到Azure Queue

5.5 Spark Streaming实时分析用户日志

5.5.1 构建Azure Queue的Spark Streaming Receiver

5.5.2 Spark Streaming实时处理Azure Queue日志

5.5.3 Spark Streaming数据存储于Azure Table

5.6 MLlib离线训练模型

5.6.1 加载训练数据

5.6.2 使用rating RDD训练ALS模型

5.6.3 使用ALS模型进行电影推荐

5.6.4 评估模型的均方差

5.7 本章小结

第6章 Twitter情感分析

6.1 系统架构

6.2 Twitter数据收集

6.2.1 设置

6.2.2 Spark Streaming接收并输出Tweet

6.3 数据预处理与Cassandra存储

6.3.1 添加SBT依赖

6.3.2 创建Cassandra Schema

6.3.3 数据存储于Cassandra

Spark大数据分析实战豆 0.0分

第1章　Spark简介

1.1　初识Spark

1.2　Spark生态系统BDAS

1.3　Spark架构与运行逻辑

1.4　弹性分布式数据集

1.4.1　RDD简介

1.4.2　RDD算子分类

1.5　本章小结

第2章　Spark开发与环境配置

2.1　Spark应用开发环境配置

2.1.1　使用Intellij开发Spark程序

2.1.2　使用SparkShell进行交互式数据分析

2.2　远程调试Spark程序

2.3　Spark编译

2.4　配置Spark源码阅读环境

2.5　本章小结

第3章　BDAS简介

3.1　SQL on Spark

3.1.1　为什么使用Spark SQL

3.1.2　Spark SQL架构分析

3.2　Spark Streaming

3.2.1　Spark Streaming简介

3.2.2　Spark Streaming架构

3.2.3　Spark Streaming原理剖析

3.3　GraphX

3.3.1　GraphX简介

3.3.2　GraphX的使用简介

3.3.3　GraphX体系结构

3.4　MLlib

3.4.1　MLlib简介

3.4.2　MLlib中的聚类和分类

3.5　本章小结

第4章　Lamda架构日志分析流水线

4.1　日志分析概述

4.2　日志分析指标

4.3　Lamda架构

4.4　构建日志分析数据流水线

4.4.1　用Flume进行日志采集

4.4.2　用Kafka将日志汇总

4.4.3　用Spark Streaming进行实时日志分析

4.4.4　Spark SQL离线日志分析

4.4.5　用Flask将日志KPI可视化

4.5　本章小结

第5章　基于云平台和用户日志的推荐系统

5.1　Azure云平台简介

5.1.1　Azure网站模型

5.1.2　Azure数据存储

5.1.3　Azure Queue消息传递

5.2　系统架构

5.3　构建Node.js应用

5.3.1　创建Azure Web应用

5.3.2　构建本地Node.js网站

5.3.3　发布应用到云平台

5.4　数据收集与预处理

5.4.1　通过JS收集用户行为日志

5.4.2　用户实时行为回传到Azure Queue

5.5　Spark Streaming实时分析用户日志

5.5.1　构建Azure Queue的Spark Streaming Receiver

5.5.2　Spark Streaming实时处理Azure Queue日志

5.5.3　Spark Streaming数据存储于Azure Table

5.6　MLlib离线训练模型

5.6.1　加载训练数据

5.6.2　使用rating RDD训练ALS模型

5.6.3　使用ALS模型进行电影推荐

5.6.4　评估模型的均方差

5.7　本章小结

第6章　Twitter情感分析

6.1　系统架构

6.2　Twitter数据收集

6.2.1　设置

6.2.2　Spark Streaming接收并输出Tweet

6.3　数据预处理与Cassandra存储

6.3.1　添加SBT依赖

6.3.2　创建Cassandra Schema

6.3.3　数据存储于Cassandra

6.4　Spark Streaming热点Twitter分析

6.5　Spark Streaming在线情感分析

6.6　Spark SQL进行Twitter分析

6.6.1　读取Cassandra数据