注重体验与质量的电子书资源下载网站
分类于: 编程语言 计算机基础 云计算&大数据
简介
Apache Spark机器学习 豆 0.0分
资源最后更新于 2020-03-29 01:35:07
作者:〔美〕刘永川(Alex Liu)
译者:闫龙川高德荃李君婷
出版社:出版社机械工业出版社
出版日期:2017-04
文件格式: pdf
简介· · · · · ·
近年来,大数据发展迅猛,如雨后春笋般出现在各行各业,企业收集和存储的数据成倍增长,数据分析成为企业核心竞争力的关键因素。大数据的核心是发现和利用数据的价值,而驾驭大数据的核心就是数据分析能力。面向大数据分析,数据科学家和专业的统计分析人员都需要简单、快捷的工具,将大数据与机器学习有机地结合,从而开展高效的统计分析和数据挖掘。大数据时代最鲜明的特征就是变化,大数据技术也在日新月异的变化之中,同时,Spark自身和机器学习领域都在快速地进行迭代演进,让我们共同努力,一起进入这绚丽多彩的大数据时代!
目录
译者序
前言
第1章 Spark机器学习简介
1.1 Spark概述和技术优势
1.1.1 Spark概述
1.1.2 Spark优势
1.2 在机器学习中应用Spark计算
1.3 机器学习算法
1.4 MLlib
1.5 Spark RDD和DataFrame
1.5.1 Spark RDD
1.5.2 Spark DataFrame
1.5.3 R语言DataFrame API
1.5.4 机器学习框架、RM4E和Spark计算
1.5.5 机器学习框架
1.5.6 RM4E
1.5.7 Spark计算框架
1.6 机器学习工作流和Spark pipeline
1.7 机器学习工作流示例
1.8 Spark notebook简介
1.8.1 面向机器学习的notebook方法
1.8.2 Spark notebook
1.9 小结
第2章 Spark机器学习的数据准备
2.1 访问和加载数据集
2.1.1 访问公开可用的数据集
2.1.2 加载数据集到Spark
2.1.3 数据集探索和可视化
2.2 数据清洗
2.2.1 处理数据不完备性
2.2.2 在Spark中进行数据清洗
2.2.3 更简便的数据清洗
2.3 一致性匹配
2.3.1 一致性问题
2.3.2 基于Spark的一致性匹配
2.3.3 实体解析
2.3.4 更好的一致性匹配
2.4 数据集重组
2.4.1 数据集重组任务
2.4.2 使用Spark SQL进行数据集重组
2.4.3 在Spark上使用R语言进行数据集重组
2.5 数据集连接
2.5.1 数据连接及其工具——Spark SQL
2.5.2 Spark中的数据集连接
2.5.3 使用R语言数据表程序包进行数据连接
2.6 特征提取
2.6.1 特征开发的挑战
2.6.2 基于Spark MLlib的特征开发
2.6.3 基于R语言的特征开发
2.7 复用性和自动化
2.7.1 数据集预处理工作流
2.7.2 基于Spark pipeline的数据集预处理
2.7.3 数据集预处理自动化
2.8 小结
第3章 基于Spark的整体视图
3.1 Spark整体视图
3.1.1 例子
3.1.2 简洁快速的计算
3.2 整体视图的方法
3.2.1 回归模型
3.2.2 SEM方法
3.2.3 决策树
3.3 特征准备
3.3.1 PCA
3.3.2 使用专业知识进行分类分组
3.3.3 特征选择
3.4 模型估计
3.4.1 MLlib实现
3.4.2 R notebook实现
3.5 模型评估
3.5.1 快速评价
3.5.2 RMSE
3.5.3 ROC曲线
3.6 结果解释
3.7 部署
3.7.1 仪表盘
3.7.2 规则
3.8 小结
第4章 基于Spark的欺诈检测
4.1 Spark欺诈检测
4.1.1 例子
4.1.2 分布式计算
4.2 欺诈检测方法
4.2.1 随机森林
4.2.2 决策树
4.3 特征提取
4.3.1 从日志文件提取特征
4.3.2 数据合并
4.4 模型估计
4.4.1 MLlib实现
4.4.2 R notebook实现
4.5 模型评价
4.5.1 快速评价
4.5.2 混淆矩阵和误报率
4.6 结果解释
4.7 部署欺诈检测
4.7.1 规则
4.7.2 评分
4.8 小结
第5章 基于Spark的风险评分
5.1 Spark用于风险评分
5.1.1 例子
5.1.2 Apache Spark notebook
5.2 风险评分方法
5.2.1 逻辑回归
5.2.2 随机森林和决策树
5.3 数据和特征准备
5.4 模型估计
5.4.1 在Data Scientist Workbench上应用R notebook
5.4.2 实现R notebook
5.5 模型评价
5.5.1 混淆矩阵
5.5.2 ROC分析
5.5.3 Kolmogorov-Smirnov检验
5.6 结果解释
5.7 部署
5.8 小结
第6章 基于Spark的流失预测
6.1 Spark流失预测
6.1.1 例子
6.1.2 Spark计算
6.2 流失预测的方法
6.2.1 回归模型
6.2.2 决策树和随机森林
6.3 特征准备
6.3.1 特征提取
6.3.2 特征选择
6.4 模型估计
6.5 模型评估
6.6 结果解释
6.7 部署
6.7.1 评分
6.7.2 干预措施推荐
6.8 小结
第7章 基于Spark的产品推荐
7.1 基于Apache Spark的产品推荐引擎
7.1.1 例子
7.1.2 基于Spark平台的SPSS
7.2 产品推荐方法
7.2.1 协同过滤
7.2.2 编程准备
7.3 基于SPSS的数据治理
7.4 模型估计
7.5 模型评价
7.6 产品推荐部署
7.7 小结
第8章 基于Spark的学习分析
8.1 Spark流失预测
8.1.1 例子
8.1.2 Spark计算
8.2 流失预测方法
8.2.1 回归模型
8.2.2 决策树
8.3 特征准备
8.3.1 特征开发
8.3.2 特征选择
8.4 模型估计
8.5 模型评价
8.5.1 快速评价
8.5.2 混淆矩阵和错误率
8.6 结果解释
8.6.1 计算干预影响
8.6.2 计算主因子影响
8.7 部署
8.7.1 规则
8.7.2 评分
8.8 小结
第9章 基于Spark的城市分析
9.1 Spark服务预测
9.1.1 例子
9.1.2 Spark计算
9.1.3 服务预测方法
9.1.4 回归模型
9.1.5 时间序列建模
9.2 数据和特征准备
9.2.1 数据合并
9.2.2 特征选择
9.3 模型估计
9.3.1 用Zeppelin notebook实现Spark
9.3.2 用R notebook实现Spark
9.4 模型评估
9.4.1 使用MLlib计算RMSE
9.4.2 使用R语言计算RMSE
9.5 结果解释
9.5.1 最大影响因素
9.5.2 趋势可视化
9.6 小结
第10章 基于Spark的电信数据学习
10.1 在Spark平台上使用电信数据
10.1.1 例子
10.1.2 Spark计算
10.2 电信数据机器学习方法
10.2.1 描述性统计和可视化
10.2.2 线性和逻辑回归模型
10.2.3 决策树和随机森林
10.3 数据和特征开发
10.3.1 数据重组
10.3.2 特征开发和选择
10.4 模型估计
10.5 模型评估
10.5.1 使用MLlib计算RMSE
10.5.2 使用R语言计算RMSE
10.5.3 使用MLlib和R语言计算混淆矩阵与错误率
10.6 结果解释
10.6.1 描述性统计和可视化
10.6.2 最大影响因素
10.6.3 特别的洞见
10.6.4 趋势可视化
10.7 模型部署
10.7.1 告警发送规则
10.7.2 为流失和呼叫中心呼叫情况进行用户评分
10.7.3 为购买倾向分析进行用户评分
10.8 小结
第11章 基于Spark的开放数据建模
11.1 Spark用于开放数据学习
11.1.1 例子
11.1.2 Spark计算
11.1.3 评分和排名方法
11.1.4 聚类分析
11.1.5 主成分分析
11.1.6 回归模型
11.1.7 分数合成
11.2 数据和特征准备
11.2.1 数据清洗
11.2.2 数据合并
11.2.3 特征开发
11.2.4 特征选择
11.3 模型估计
11.3.1 基于Spark的SPSS分析:SPSS Analytics Server
11.3.2 模型评价
11.3.3 用MLlib计算RMSE
11.3.4 用R语言计算RMSE
11.4 结果解释
11.4.1 排名比较
11.4.2 最大影响因素
11.5 部署
11.5.1 发送告警规则
11.5.2 学区排名评分
11.6 小结