我爱电子书-《Apache Spark机器学习》| pdf + epub + mobi + awz3, 高清版, 带目录，Kindle版, 多看精排版下载

注重体验与质量的电子书资源下载网站

分类于: 编程语言计算机基础云计算&大数据

简介

Apache Spark机器学习豆 0.0分

资源最后更新于 2020-03-29 01:35:07

作者：〔美〕刘永川（Alex Liu）

译者：闫龙川高德荃李君婷

出版社：出版社机械工业出版社

出版日期：2017-04

文件格式： pdf

标签：计算机编程大数据

简介· · · · · ·

近年来，大数据发展迅猛，如雨后春笋般出现在各行各业，企业收集和存储的数据成倍增长，数据分析成为企业核心竞争力的关键因素。大数据的核心是发现和利用数据的价值，而驾驭大数据的核心就是数据分析能力。面向大数据分析，数据科学家和专业的统计分析人员都需要简单、快捷的工具，将大数据与机器学习有机地结合，从而开展高效的统计分析和数据挖掘。大数据时代最鲜明的特征就是变化，大数据技术也在日新月异的变化之中，同时，Spark自身和机器学习领域都在快速地进行迭代演进，让我们共同努力，一起进入这绚丽多彩的大数据时代！

直接下载

简介

Apache Spark机器学习 豆 0.0分

简介· · · · · ·

目录

译者序

前言

第1章 Spark机器学习简介

1.1 Spark概述和技术优势

1.1.1 Spark概述

1.1.2 Spark优势

1.2 在机器学习中应用Spark计算

1.3 机器学习算法

1.4 MLlib

1.5 Spark RDD和DataFrame

1.5.1 Spark RDD

1.5.2 Spark DataFrame

1.5.3 R语言DataFrame API

1.5.4 机器学习框架、RM4E和Spark计算

1.5.5 机器学习框架

1.5.6 RM4E

1.5.7 Spark计算框架

1.6 机器学习工作流和Spark pipeline

1.7 机器学习工作流示例

1.8 Spark notebook简介

1.8.1 面向机器学习的notebook方法

1.8.2 Spark notebook

1.9 小结

第2章 Spark机器学习的数据准备

2.1 访问和加载数据集

2.1.1 访问公开可用的数据集

2.1.2 加载数据集到Spark

2.1.3 数据集探索和可视化

2.2 数据清洗

2.2.1 处理数据不完备性

2.2.2 在Spark中进行数据清洗

2.2.3 更简便的数据清洗

2.3 一致性匹配

2.3.1 一致性问题

2.3.2 基于Spark的一致性匹配

2.3.3 实体解析

2.3.4 更好的一致性匹配

2.4 数据集重组

2.4.1 数据集重组任务

2.4.2 使用Spark SQL进行数据集重组

2.4.3 在Spark上使用R语言进行数据集重组

2.5 数据集连接

2.5.1 数据连接及其工具——Spark SQL

2.5.2 Spark中的数据集连接

2.5.3 使用R语言数据表程序包进行数据连接

2.6 特征提取

2.6.1 特征开发的挑战

2.6.2 基于Spark MLlib的特征开发

2.6.3 基于R语言的特征开发

2.7 复用性和自动化

2.7.1 数据集预处理工作流

2.7.2 基于Spark pipeline的数据集预处理

2.7.3 数据集预处理自动化

2.8 小结

第3章 基于Spark的整体视图

3.1 Spark整体视图

3.1.1 例子

3.1.2 简洁快速的计算

3.2 整体视图的方法

3.2.1 回归模型

3.2.2 SEM方法

3.2.3 决策树

3.3 特征准备

3.3.1 PCA

3.3.2 使用专业知识进行分类分组

3.3.3 特征选择

3.4 模型估计

3.4.1 MLlib实现

3.4.2 R notebook实现

3.5 模型评估

3.5.1 快速评价

3.5.2 RMSE

3.5.3 ROC曲线

3.6 结果解释

3.7 部署

3.7.1 仪表盘

Apache Spark机器学习豆 0.0分

第3章基于Spark的整体视图

第4章基于Spark的欺诈检测

第5章基于Spark的风险评分

第6章基于Spark的流失预测

第7章基于Spark的产品推荐