注重体验与质量的电子书资源下载网站
分类于: 计算机基础 互联网 云计算&大数据
简介
Scala机器学习 豆 0.0分
资源最后更新于 2020-03-29 02:55:51
作者:〔美〕亚历克斯·科兹洛夫
译者:罗棻刘波
出版社:出版社机械工业出版社
出版日期:2017-07
文件格式: pdf
简介· · · · · ·
这是一本关于机器学习的书,它以Scala为重点,介绍了函数式编程方法以及如何在Spark上处理大数据。本书后面将介绍关于Hadoop的内容。最初它能在廉价硬件上处理大量的信息,因为当时传统的关系数据库不能处理这样的信息(或能处理,但是代价过高)。大数据这个话题太大了,而Spark才是本书的重点,它是Hadoop MapReduce的另一个实现,Spark提高了磁盘上持久化保存数据的效率。通常认为使用Spark有点贵,因为它消耗更多的内存,要求硬件必须更可靠,但它也更具交互性。此外,Spark使用Scala工作(也可以使用Java和Python等),但Scala是主要的API语言。因此Spark用Scala在数据管道的表达方面有一定的协同性。作者:(美)亚历克斯·科兹洛夫
目录
译者序
前言
第1章 探索数据分析
1.1 Scala入门
1.2 去除分类字段的重复值
1.3 数值字段概述
1.4 基本抽样、分层抽样和一致抽样
1.5 使用Scala和Spark的Notebook工作
1.6 相关性的基础
1.7 总结
第2章 数据管道和建模
2.1 影响图
2.2 序贯试验和风险处理
2.3 探索与利用问题
2.4 不知之不知
2.5 数据驱动系统的基本组件
2.5.1 数据收集
2.5.2 数据转换层
2.5.3 数据分析与机器学习
2.5.4 UI组件
2.5.5 动作引擎
2.5.6 关联引擎
2.5.7 监控
2.6 优化和交互
2.7 总结
第3章 使用Spark和MLlib
3.1 安装Spark
3.2 理解Spark的架构
3.2.1 任务调度
3.2.2 Spark的组件
3.2.3 MQTT、ZeroMQ、Flume和Kafka
3.2.4 HDFS、Cassandra、S3和Tachyon
3.2.5 Mesos、YARN和Standalone
3.3 应用
3.3.1 单词计数
3.3.2 基于流的单词计数
3.3.3 Spark SQL和数据框
3.4 机器学习库
3.4.1 SparkR
3.4.2 图算法:Graphx和GraphFrames
3.5 Spark的性能调整
3.6 运行Hadoop的HDFS
3.7 总结
第4章 监督学习和无监督学习
4.1 记录和监督学习
4.1.1 Iirs数据集
4.1.2 类标签点
4.1.3 SVMWithSGD
4.1.4 logistic回归
4.1.5 决策树
4.1.6 bagging和boosting:集成学习方法
4.2 无监督学习
4.3 数据维度
4.4 总结
第5章 回归和分类
5.1 回归是什么
5.2 连续空间和度量
5.3 线性回归
5.4 logistic回归
5.5 正则化
5.6 多元回归
5.7 异方差
5.8 回归树
5.9 分类的度量
5.10 多分类问题
5.11 感知机
5.12 泛化误差和过拟合
5.13 总结
第6章 使用非结构化数据
6.1 嵌套数据
6.2 其他序列化格式
6.3 Hive和Impala
6.4 会话化
6.5 使用特质
6.6 使用模式匹配
6.7 非结构化数据的其他用途
6.8 概率结构
6.9 投影
6.10 总结
第7章 使用图算法
7.1 图简介
7.2 SBT
7.3 Scala的图项目
7.3.1 增加节点和边
7.3.2 图约束
7.3.3 JSON
7.4 GraphX
7.4.1 谁收到电子邮件
7.4.2 连通分量
7.4.3 三角形计数
7.4.4 强连通分量
7.4.5 PageRank
7.4.6 SVD++
7.5 总结
第8章 Scala与R和Python的集成
8.1 R的集成
8.1.1 R和SparkR的相关配置
8.1.2 数据框
8.1.3 线性模型
8.1.4 广义线性模型
8.1.5 在SparkR中读取JSON文件
8.1.6 在SparkR中写入Parquet文件
8.1.7 从R调用Scala
8.2 Python的集成
8.2.1 安装Python
8.2.2 PySpark
8.2.3 从Java/Scala调用Python
8.3 总结
第9章 Scala中的NLP
9.1 文本分析流程
9.2 Spark的MLlib库
9.2.1 TF-IDF
9.2.2 LDA
9.3 分词、标注和分块
9.4 POS标记
9.5 使用word2vec寻找词关系
9.6 总结
第10章 高级模型监控
10.1 系统监控
10.2 进程监控
10.3 模型监控
10.3.1 随时间变化的性能
10.3.2 模型停用标准
10.3.3 A/B测试
10.4 总结