logo
分类于: 编程语言 计算机基础 云计算&大数据

简介

Apache Spark机器学习

Apache Spark机器学习 0.0分

资源最后更新于 2020-03-29 01:35:07

作者:〔美〕刘永川(Alex Liu)

译者:闫龙川高德荃李君婷

出版社:出版社机械工业出版社

出版日期:2017-04

文件格式: pdf

标签: 计算机 编程 大数据

简介· · · · · ·

近年来,大数据发展迅猛,如雨后春笋般出现在各行各业,企业收集和存储的数据成倍增长,数据分析成为企业核心竞争力的关键因素。大数据的核心是发现和利用数据的价值,而驾驭大数据的核心就是数据分析能力。面向大数据分析,数据科学家和专业的统计分析人员都需要简单、快捷的工具,将大数据与机器学习有机地结合,从而开展高效的统计分析和数据挖掘。大数据时代最鲜明的特征就是变化,大数据技术也在日新月异的变化之中,同时,Spark自身和机器学习领域都在快速地进行迭代演进,让我们共同努力,一起进入这绚丽多彩的大数据时代!

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 译者序
  2. 前言
  3. 第1章 Spark机器学习简介
  4. 1.1 Spark概述和技术优势
  5. 1.1.1 Spark概述
  6. 1.1.2 Spark优势
  7. 1.2 在机器学习中应用Spark计算
  8. 1.3 机器学习算法
  9. 1.4 MLlib
  10. 1.5 Spark RDD和DataFrame
  11. 1.5.1 Spark RDD
  12. 1.5.2 Spark DataFrame
  13. 1.5.3 R语言DataFrame API
  14. 1.5.4 机器学习框架、RM4E和Spark计算
  15. 1.5.5 机器学习框架
  16. 1.5.6 RM4E
  17. 1.5.7 Spark计算框架
  18. 1.6 机器学习工作流和Spark pipeline
  19. 1.7 机器学习工作流示例
  20. 1.8 Spark notebook简介
  21. 1.8.1 面向机器学习的notebook方法
  22. 1.8.2 Spark notebook
  23. 1.9 小结
  24. 第2章 Spark机器学习的数据准备
  25. 2.1 访问和加载数据集
  26. 2.1.1 访问公开可用的数据集
  27. 2.1.2 加载数据集到Spark
  28. 2.1.3 数据集探索和可视化
  29. 2.2 数据清洗
  30. 2.2.1 处理数据不完备性
  31. 2.2.2 在Spark中进行数据清洗
  32. 2.2.3 更简便的数据清洗
  33. 2.3 一致性匹配
  34. 2.3.1 一致性问题
  35. 2.3.2 基于Spark的一致性匹配
  36. 2.3.3 实体解析
  37. 2.3.4 更好的一致性匹配
  38. 2.4 数据集重组
  39. 2.4.1 数据集重组任务
  40. 2.4.2 使用Spark SQL进行数据集重组
  41. 2.4.3 在Spark上使用R语言进行数据集重组
  42. 2.5 数据集连接
  43. 2.5.1 数据连接及其工具——Spark SQL
  44. 2.5.2 Spark中的数据集连接
  45. 2.5.3 使用R语言数据表程序包进行数据连接
  46. 2.6 特征提取
  47. 2.6.1 特征开发的挑战
  48. 2.6.2 基于Spark MLlib的特征开发
  49. 2.6.3 基于R语言的特征开发
  50. 2.7 复用性和自动化
  51. 2.7.1 数据集预处理工作流
  52. 2.7.2 基于Spark pipeline的数据集预处理
  53. 2.7.3 数据集预处理自动化
  54. 2.8 小结
  55. 第3章 基于Spark的整体视图
  56. 3.1 Spark整体视图
  57. 3.1.1 例子
  58. 3.1.2 简洁快速的计算
  59. 3.2 整体视图的方法
  60. 3.2.1 回归模型
  61. 3.2.2 SEM方法
  62. 3.2.3 决策树
  63. 3.3 特征准备
  64. 3.3.1 PCA
  65. 3.3.2 使用专业知识进行分类分组
  66. 3.3.3 特征选择
  67. 3.4 模型估计
  68. 3.4.1 MLlib实现
  69. 3.4.2 R notebook实现
  70. 3.5 模型评估
  71. 3.5.1 快速评价
  72. 3.5.2 RMSE
  73. 3.5.3 ROC曲线
  74. 3.6 结果解释
  75. 3.7 部署
  76. 3.7.1 仪表盘
  77. 3.7.2 规则
  78. 3.8 小结
  79. 第4章 基于Spark的欺诈检测
  80. 4.1 Spark欺诈检测
  81. 4.1.1 例子
  82. 4.1.2 分布式计算
  83. 4.2 欺诈检测方法
  84. 4.2.1 随机森林
  85. 4.2.2 决策树
  86. 4.3 特征提取
  87. 4.3.1 从日志文件提取特征
  88. 4.3.2 数据合并
  89. 4.4 模型估计
  90. 4.4.1 MLlib实现
  91. 4.4.2 R notebook实现
  92. 4.5 模型评价
  93. 4.5.1 快速评价
  94. 4.5.2 混淆矩阵和误报率
  95. 4.6 结果解释
  96. 4.7 部署欺诈检测
  97. 4.7.1 规则
  98. 4.7.2 评分
  99. 4.8 小结
  100. 第5章 基于Spark的风险评分
  101. 5.1 Spark用于风险评分
  102. 5.1.1 例子
  103. 5.1.2 Apache Spark notebook
  104. 5.2 风险评分方法
  105. 5.2.1 逻辑回归
  106. 5.2.2 随机森林和决策树
  107. 5.3 数据和特征准备
  108. 5.4 模型估计
  109. 5.4.1 在Data Scientist Workbench上应用R notebook
  110. 5.4.2 实现R notebook
  111. 5.5 模型评价
  112. 5.5.1 混淆矩阵
  113. 5.5.2 ROC分析
  114. 5.5.3 Kolmogorov-Smirnov检验
  115. 5.6 结果解释
  116. 5.7 部署
  117. 5.8 小结
  118. 第6章 基于Spark的流失预测
  119. 6.1 Spark流失预测
  120. 6.1.1 例子
  121. 6.1.2 Spark计算
  122. 6.2 流失预测的方法
  123. 6.2.1 回归模型
  124. 6.2.2 决策树和随机森林
  125. 6.3 特征准备
  126. 6.3.1 特征提取
  127. 6.3.2 特征选择
  128. 6.4 模型估计
  129. 6.5 模型评估
  130. 6.6 结果解释
  131. 6.7 部署
  132. 6.7.1 评分
  133. 6.7.2 干预措施推荐
  134. 6.8 小结
  135. 第7章 基于Spark的产品推荐
  136. 7.1 基于Apache Spark的产品推荐引擎
  137. 7.1.1 例子
  138. 7.1.2 基于Spark平台的SPSS
  139. 7.2 产品推荐方法
  140. 7.2.1 协同过滤
  141. 7.2.2 编程准备
  142. 7.3 基于SPSS的数据治理
  143. 7.4 模型估计
  144. 7.5 模型评价
  145. 7.6 产品推荐部署
  146. 7.7 小结
  147. 第8章 基于Spark的学习分析
  148. 8.1 Spark流失预测
  149. 8.1.1 例子
  150. 8.1.2 Spark计算
  151. 8.2 流失预测方法
  152. 8.2.1 回归模型
  153. 8.2.2 决策树
  154. 8.3 特征准备
  155. 8.3.1 特征开发
  156. 8.3.2 特征选择
  157. 8.4 模型估计
  158. 8.5 模型评价
  159. 8.5.1 快速评价
  160. 8.5.2 混淆矩阵和错误率
  161. 8.6 结果解释
  162. 8.6.1 计算干预影响
  163. 8.6.2 计算主因子影响
  164. 8.7 部署
  165. 8.7.1 规则
  166. 8.7.2 评分
  167. 8.8 小结
  168. 第9章 基于Spark的城市分析
  169. 9.1 Spark服务预测
  170. 9.1.1 例子
  171. 9.1.2 Spark计算
  172. 9.1.3 服务预测方法
  173. 9.1.4 回归模型
  174. 9.1.5 时间序列建模
  175. 9.2 数据和特征准备
  176. 9.2.1 数据合并
  177. 9.2.2 特征选择
  178. 9.3 模型估计
  179. 9.3.1 用Zeppelin notebook实现Spark
  180. 9.3.2 用R notebook实现Spark
  181. 9.4 模型评估
  182. 9.4.1 使用MLlib计算RMSE
  183. 9.4.2 使用R语言计算RMSE
  184. 9.5 结果解释
  185. 9.5.1 最大影响因素
  186. 9.5.2 趋势可视化
  187. 9.6 小结
  188. 第10章 基于Spark的电信数据学习
  189. 10.1 在Spark平台上使用电信数据
  190. 10.1.1 例子
  191. 10.1.2 Spark计算
  192. 10.2 电信数据机器学习方法
  193. 10.2.1 描述性统计和可视化
  194. 10.2.2 线性和逻辑回归模型
  195. 10.2.3 决策树和随机森林
  196. 10.3 数据和特征开发
  197. 10.3.1 数据重组
  198. 10.3.2 特征开发和选择
  199. 10.4 模型估计
  200. 10.5 模型评估
  201. 10.5.1 使用MLlib计算RMSE
  202. 10.5.2 使用R语言计算RMSE
  203. 10.5.3 使用MLlib和R语言计算混淆矩阵与错误率
  204. 10.6 结果解释
  205. 10.6.1 描述性统计和可视化
  206. 10.6.2 最大影响因素
  207. 10.6.3 特别的洞见
  208. 10.6.4 趋势可视化
  209. 10.7 模型部署
  210. 10.7.1 告警发送规则
  211. 10.7.2 为流失和呼叫中心呼叫情况进行用户评分
  212. 10.7.3 为购买倾向分析进行用户评分
  213. 10.8 小结
  214. 第11章 基于Spark的开放数据建模
  215. 11.1 Spark用于开放数据学习
  216. 11.1.1 例子
  217. 11.1.2 Spark计算
  218. 11.1.3 评分和排名方法
  219. 11.1.4 聚类分析
  220. 11.1.5 主成分分析
  221. 11.1.6 回归模型
  222. 11.1.7 分数合成
  223. 11.2 数据和特征准备
  224. 11.2.1 数据清洗
  225. 11.2.2 数据合并
  226. 11.2.3 特征开发
  227. 11.2.4 特征选择
  228. 11.3 模型估计
  229. 11.3.1 基于Spark的SPSS分析:SPSS Analytics Server
  230. 11.3.2 模型评价
  231. 11.3.3 用MLlib计算RMSE
  232. 11.3.4 用R语言计算RMSE
  233. 11.4 结果解释
  234. 11.4.1 排名比较
  235. 11.4.2 最大影响因素
  236. 11.5 部署
  237. 11.5.1 发送告警规则
  238. 11.5.2 学区排名评分
  239. 11.6 小结