logo
分类于: 计算机基础 云计算&大数据 职场办公

简介

Storm 技术内幕与大数据实践

Storm 技术内幕与大数据实践 6.6分

资源最后更新于 2020-03-29 04:15:33

作者:陈敏敏王新春黄奉线

出版社:出版社人民邮电出版社

出版日期:2015-05

ISBN:9787115388537

文件格式: pdf

标签: 大数据 Python Storm 数据处理 实时计算

简介· · · · · ·

本书内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。本书适合对大数据领域感兴趣的技术人员或者在校学生阅读,更适合大数据方向的架构师、运维工程师、算法/应用的开发者参考。陈敏敏:1号店个性精准化部门资深架构师,在此之前曾服务于微软和三星电子等公司,长期从事大数据、搜索和推荐平台相关工作。目前主要关注于NoSQL、实时计算框架、推荐、广告投放等相关技术。王新春:大众点评网数据平台资深工程师,负责点评实时计算平台相关工作,推动流式计算和实时计算在点评的应用和推广,一直致力于大数据和分布式系统的研究和应用。目前主要从事NoSQL、实时分布式系统的研究与开发。黄奉线:1号店基础架构部分布式存储团队负责人,推动流式计算在1号店的应用,获得CTO特别奖,长期从事基础架构相关工作。目前主要关注于NoSQL、开源、流式计算、分布式存储等相关技术。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 前言
  2. 第1章 绪论
  3. 1.1 Storm的基本组件
  4. 1.1.1 集群组成
  5. 1.1.2 核心概念
  6. 1.1.3 Storm的可靠性
  7. 1.1.4 Storm的特性
  8. 1.2 其他流式处理框架
  9. 1.2.1 Apache S4
  10. 1.2.2 Spark Streaming
  11. 1.2.3 流计算和Storm的应用
  12. 第2章 实时平台介绍
  13. 2.1 实时平台架构介绍
  14. 2.2 Kafka架构
  15. 2.2.1 Kafka的基本术语和概念
  16. 2.2.2 Kafka在实时平台中的应用
  17. 2.2.3 消息的持久化和顺序读写
  18. 2.2.4 sendfile系统调用和零复制
  19. 2.2.5 Kafka的客户端
  20. 2.2.6 Kafka的扩展
  21. 2.3 大众点评实时平台
  22. 2.3.1 相关数据
  23. 2.3.2 实时平台简介
  24. 2.3.3 Blackhole
  25. 2.4 1号店实时平台
  26. 第3章 Storm集群部署和配置
  27. 3.1 Storm的依赖组件
  28. 3.2 Storm的部署环境
  29. 3.3 部署Storm服务
  30. 3.3.1 部署ZooKeeper
  31. 3.3.2 部署Storm
  32. 3.3.3 配置Storm
  33. 3.4 启动Storm
  34. 3.5 Storm的守护进程
  35. 3.6 部署Storm的其他节点
  36. 3.7 提交Topology
  37. 第4章 Storm内部剖析
  38. 4.1 Storm客户端
  39. 4.2 Nimbus
  40. 4.2.1 启动Nimbus服务
  41. 4.2.2 Nimbus服务的执行过程
  42. 4.2.3 分配Executor
  43. 4.2.4 调度器
  44. 4.2.5 默认调度器DefaultScheduler
  45. 4.2.6 均衡调度器EvenScheduler
  46. 4.3 Supervisor
  47. 4.3.1 ISupervisor接口
  48. 4.3.2 Supervisor的共享数据
  49. 4.3.3 Supervisor的执行过程
  50. 4.4 Worker
  51. 4.4.1 Worker中的数据流
  52. 4.4.2 创建Worker的过程
  53. 4.5 Executor
  54. 4.5.1 Executor的创建
  55. 4.5.2 创建Spout的Executor
  56. 4.5.3 创建Bolt的Executor
  57. 4.6 Task
  58. 4.6.1 Task的上下文对象
  59. 4.6.2 Task的创建
  60. 4.7 Storm中的统计
  61. 4.7.1 stats框架
  62. 4.7.2 metric框架
  63. 4.8 Ack框架
  64. 4.8.1 Ack的原理
  65. 4.8.2 Acker Bolt
  66. 4.9 Storm总体架构
  67. 第5章 Storm运维和监控
  68. 5.1 主机信息监控
  69. 5.2 日志和监控
  70. 5.3 Storm UI和NimbusClient
  71. 5.4 Storm Metric的使用
  72. 5.5 Storm ZooKeeper的目录
  73. 5.6 Storm Hook的使用
  74. 第6章 Storm的扩展
  75. 6.1 Storm UI的扩展
  76. 6.1.1 Storm UI原生功能
  77. 6.1.2 Storm UI新功能需求
  78. 6.1.3 Storm的Thrift接口
  79. 6.2 资源隔离
  80. 6.2.1 CGroup测试
  81. 6.2.2 基于CGroup的资源隔离的实现
  82. 第7章 Storm开发
  83. 7.1 简单示例
  84. 7.2 调试和日志
  85. 7.3 Storm Trident
  86. 7.4 Strom DRPC
  87. 第8章 基于Storm的实时数据平台
  88. 8.1 Hadoop到Storm的代码迁移经验
  89. 8.2 实时用户画像
  90. 8.2.1 简单实时画像
  91. 8.2.2 实时画像优化
  92. 8.2.3 实时画像的毫秒级更新
  93. 8.3 其他场景画像
  94. 8.4 画像的兴趣度模型构建
  95. 8.5 外部画像融合经验分享
  96. 8.6 交互式查询和分析用户画像
  97. 8.7 实时产品和店铺信息更新
  98. 第9章 大数据应用案例
  99. 9.1 实时DAU计算
  100. 9.2 实时推荐系统
  101. 9.2.1 推荐系统介绍
  102. 9.2.2 实时推荐系统的方法
  103. 9.2.3 基于Storm的实时推荐系统
  104. 9.3 广告投放的精准化
  105. 9.3.1 点击率预测
  106. 9.3.2 搜索引擎营销
  107. 9.3.3 精准化营销与千人千面
  108. 9.4 实时意图和搜索
  109. 9.4.1 用户意图预测
  110. 9.4.2 搜索比价
  111. 9.4.3 搜索排序
  112. 第10章 Storm使用经验和性能优化
  113. 10.1 使用经验
  114. 10.1.1 使用rebalance命令动态调整并发度
  115. 10.1.2 使用tick消息做定时器
  116. 10.1.3 使用组件的并行度代替线程池
  117. 10.1.4 不要用DRPC批量处理大数据
  118. 10.1.5 不要在Spout中处理耗时的操作
  119. 10.1.6 log4j的使用技巧
  120. 10.1.7 注意fieldsGrouping的数据均衡性
  121. 10.1.8 优先使用localOrShuffleGrouping
  122. 10.1.9 设置合理的MaxSpoutPending值
  123. 10.1.10 设置合理的Worker数
  124. 10.1.11 平衡吞吐量和时效性
  125. 10.2 性能优化
  126. 10.2.1 找到Topology的性能瓶颈
  127. 10.2.2 GC参数优化
  128. 10.3 性能优化原则
  129. 附录A Kafka原理
  130. 附录B 将Storm源码导入Eclipse