logo
分类于: 计算机基础 人工智能 设计

简介

Spark快速数据处理: 大数据技术丛书

Spark快速数据处理: 大数据技术丛书 5.1分

资源最后更新于 2020-03-29 01:53:05

作者:〔美〕凯洛(Holden Karau)

译者:余璜张磊

出版社:出版社机械工业出版社

出版日期:2014-04

ISBN:9787111463115

文件格式: pdf

标签: 计算机 程序设计 限时特价 大数据技术丛书 数据处理软件

简介· · · · · ·

本书系统讲解Spark的使用方法,包括如何在多种机器上安装Spark,如何配置一个Spark集群,如何在交互模式下运行第一个Spark作业,如何在Spark集群上构建一个生产级的脱机/独立作业,如何与Spark集群建立连接和使用SparkContext,如何创建和保存RDD(弹性分布式数据集),如何用Spark分布式处理数据,如何设置Shark,将Hive查询集成到你的Spark作业中来,如何测试Spark作业,以及如何提升Spark任务的性能。作者:凯洛(Holden Karau),资深软件开发工程师,现就职于Databricks公司,之前曾就职于谷歌、亚马逊、微软和Foursquare等著名公司。他对开源情有独钟,参与了许多开源项目,如Linux内核无线驱动、Android程序监控、搜索引擎等,对存储系统、推荐系统、搜索分类等都有深入研究。译者:余璜,阿里巴巴核心系统研发工程师,OceanBase核心开发人员,对分布式系统理论和工程实践有深刻理解,专注于分布式系统设计、大规模数据处理,乐于分享,在CSDN上分享了大量技术文章。张磊,Spark爱好者,曾参与分布式OLAP数据库系统核心开发,热衷于大数据处理、分布式计算。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 译者序
  2. 作者简介
  3. 关于www.PacktPub.com
  4. 前言
  5. 第1章 安装Spark以及构建Spark集群
  6. 1.1 单机运行Spark
  7. 1.2 在EC2上运行Spark
  8. 1.3 在ElasticMapReduce上部署Spark
  9. 1.4 用Chef(opscode)部署Spark
  10. 1.5 在Mesos上部署Spark
  11. 1.6 在Yarn上部署Spark
  12. 1.7 通过SSH部署集群
  13. 1.8 链接和参考
  14. 1.9 小结
  15. 第2章 Spark shell的使用
  16. 2.1 加载一个简单的text文件
  17. 2.2 用Spark shell运行逻辑回归
  18. 2.3 交互式地从S3加载数据
  19. 2.4 小结
  20. 第3章 构建并运行Spark应用
  21. 3.1 用sbt构建Spark作业
  22. 3.2 用Maven构建Spark作业
  23. 3.3 用其他工具构建Spark作业
  24. 3.4 小结
  25. 第4章 创建SparkContext
  26. 4.1 Scala
  27. 4.2 Java
  28. 4.3 Java和Scala共享的API
  29. 4.4 Python
  30. 4.5 链接和参考
  31. 4.6 小结
  32. 第5章 加载与保存数据
  33. 5.1 RDD
  34. 5.2 加载数据到RDD中
  35. 5.3 保存数据
  36. 5.4 链接和参考
  37. 5.5 小结
  38. 第6章 操作RDD
  39. 6.1 用Scala和Java操作RDD
  40. 6.1.1 Scala RDD函数
  41. 6.1.2 PairRDD连接函数
  42. 6.1.3 其他PairRDD函数
  43. 6.1.4 DoubleRDD函数
  44. 6.1.5 通用RDD函数
  45. 6.1.6 Java RDD函数
  46. 6.1.7 Spark Java函数类
  47. 6.1.8 常用Java RDD函数
  48. 6.1.9 JavaPairRDD合并函数
  49. 6.1.10 JavaPairRDD函数
  50. 6.2 用Python操作RDD
  51. 6.2.1 标准RDD函数
  52. 6.2.2 PairRDD函数
  53. 6.3 链接和参考
  54. 6.4 小结
  55. 第7章 Shark-Hive和Spark的综合运用
  56. 7.1 为什么用Hive/Shark
  57. 7.2 安装Shark
  58. 7.3 运行Shark
  59. 7.4 加载数据
  60. 7.5 在Spark程序中运行HiveQL查询
  61. 7.6 链接和参考
  62. 7.7 小结
  63. 第8章 测试
  64. 8.1 用Java和Scala测试
  65. 8.1.1 为测试而重构
  66. 8.1.2 与SparkContext交互测试
  67. 8.2 用Python测试
  68. 8.3 链接和参考
  69. 8.4 小结
  70. 第9章 技巧和窍门
  71. 9.1 日志位置
  72. 9.2 并发限制
  73. 9.3 内存使用与垃圾回收
  74. 9.4 序列化
  75. 9.5 IDE集成环境
  76. 9.6 Spark与其他语言
  77. 9.7 安全提示
  78. 9.8 邮件列表
  79. 9.9 链接和参考
  80. 9.10 小结