logo
分类于: 编程语言 计算机基础 互联网 云计算&大数据

简介

PySpark实战指南: 利用Python和Spark构建数据密集型应用并规模化部署

PySpark实战指南: 利用Python和Spark构建数据密集型应用并规模化部署 0.0分

资源最后更新于 2020-03-29 02:37:49

作者:〔美〕托马兹·卓巴斯(Tomasz Drabas)〔美〕丹尼·李(Denny Lee)

译者:栾云杰陈瑶刘旭斌

出版社:出版社机械工业出版社

出版日期:2017-11

ISBN:9787111582380

文件格式: pdf

标签: 互联网 计算机 编程 程序设计

简介· · · · · ·

Python是数据分析最常用的语言之一,而Apache Spark是一个开源的强大的分布式查询和处理引擎。本书用详尽的例子介绍了如何使用Python来调用Spark的新特性,如何处理结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,如何生成机器学习模型、操作图像、阅读串流数据以及在云上部署你的模型。数据是每个人身边都存在的,理解学习比较容易,但是数据量足够大才是一个相对准确的学习平台。在实践中,如何确定训练集合、如何将脏数据处理为清洁数据、如何填充数据等等,需要结合本书的知识理论,清楚了解待处理的大数据特性。每一种数据的特征或特性都不一致,所以前期的准备和调研必不可少。本书不仅仅是一本工具书,也是一本能深入浅出、结合简单实例来介绍PySpark语言的书。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 译者序
  2. 前言
  3. 关于作者
  4. 第1章 了解Spark
  5. 1.1 什么是Apache Spark
  6. 1.2 Spark作业和API
  7. 1.3 Spark 2.0的架构
  8. 1.4 小结
  9. 第2章 弹性分布式数据集
  10. 2.1 RDD的内部运行方式
  11. 2.2 创建RDD
  12. 2.3 全局作用域和局部作用域
  13. 2.4 转换
  14. 2.5 操作
  15. 2.6 小结
  16. 第3章 DataFrame
  17. 3.1 Python到RDD之间的通信
  18. 3.2 Catalyst优化器刷新
  19. 3.3 利用DataFrame加速PySpark
  20. 3.4 创建DataFrame
  21. 3.5 简单的DataFrame查询
  22. 3.6 RDD的交互操作
  23. 3.7 利用DataFrame API查询
  24. 3.8 利用SQL查询
  25. 3.9 DataFrame场景——实时飞行性能
  26. 3.10 Spark数据集(Dataset)API
  27. 3.11 小结
  28. 第4章 准备数据建模
  29. 4.1 检查重复数据、未观测数据和异常数据(离群值)
  30. 4.2 熟悉你的数据
  31. 4.3 可视化
  32. 4.4 小结
  33. 第5章 MLlib介绍
  34. 5.1 包概述
  35. 5.2 加载和转换数据
  36. 5.3 了解你的数据
  37. 5.4 创建最终数据集
  38. 5.5 预测婴儿生存机会
  39. 5.6 小结
  40. 第6章 ML包介绍
  41. 6.1 包的概述
  42. 6.2 使用ML预测婴儿生存几率
  43. 6.3 超参调优
  44. 6.4 使用PySpark ML的其他功能
  45. 6.5 小结
  46. 第7章 GraphFrames
  47. 7.1 GraphFrames介绍
  48. 7.2 安装GraphFrames
  49. 7.3 准备你的航班数据集
  50. 7.4 构建图形
  51. 7.5 执行简单查询
  52. 7.6 理解节点的度
  53. 7.7 确定最大的中转机场
  54. 7.8 理解Motif
  55. 7.9 使用PageRank确定机场排名
  56. 7.10 确定最受欢迎的直飞航班
  57. 7.11 使用广度优先搜索
  58. 7.12 使用D3将航班可视化
  59. 7.13 小结
  60. 第8章 TensorFrames
  61. 8.1 深度学习是什么
  62. 8.2 TensorFlow是什么
  63. 8.3 TensorFrames介绍
  64. 8.4 TensorFrames快速入门
  65. 8.5 小结
  66. 第9章 使用Blaze实现混合持久化
  67. 9.1 安装Blaze
  68. 9.2 混合持久化
  69. 9.3 抽象数据
  70. 9.4 数据操作
  71. 9.5 小结
  72. 第10章 结构化流
  73. 10.1 什么是Spark Streaming
  74. 10.2 为什么需要Spark Streaming
  75. 10.3 Spark Streaming应用程序数据流是什么
  76. 10.4 使用DStream简化Streaming应用程序
  77. 10.5 全局聚合快速入门
  78. 10.6 结构化流介绍
  79. 10.7 小结
  80. 第11章 打包Spark应用程序
  81. 11.1 spark-submit命令
  82. 11.2 以编程方式部署应用程序
  83. 11.3 Databricks作业
  84. 11.4 小结