注重体验与质量的电子书资源下载网站
分类于: 计算机基础 编程语言
简介
增强型分析:AI驱动的数据分析、业务决策与案例实践 豆 8.1分
资源最后更新于 2020-10-05 18:43:51
作者:彭鸿涛
出版社:机械工业出版社
出版日期:2019-01
ISBN:9787111634164
文件格式: pdf
标签: 数据分析 AI数据分析 计算机 工作 实战 W业务分析 经典 好书,值得一读
简介· · · · · ·
增强型分析是数据科学的未来,本书讲解了如何通过前沿的大数据技术和AI技术实现智能的数据分析和业务决策,即增强型分析。
本书的三位作者是来自德勤、前华为和前IBM的资深数据科学家,在大数据和AI领域至少都有10年以上的工作经验,他们将各自多年来在“构建数据挖掘模型,解决实际业务问题”方面积累的经验全部总结在了这本书中。
全书的内容由两条主线贯穿:
技术主线:一方面讲解了预测模型、序列分析、预测分析、Prescriptive分析等前沿数据处理技术,一方面讲解了CNN、RNN和GNN等前沿的AI技术如何为数据分析赋能。
业务主线:在数字化转型的大时代背景下,如何通过数据分析实现智慧营销、智慧风险管控,实现由初级的“主动营销”到“被动营销”,再到“全渠道协同营销”等营销手段的升级应用。
本书的重点聚焦在本质内容上,即数据处理、算法及模型、“模型洞见到业务决策...
目录
推荐序一
推荐序二
前言
第1章 数据科学家的成长之路 1
1.1 算法与数据科学家 1
1.1.1 数据科学、人工智能、机器学习等 2
1.1.2 室内活动还是室外活动 3
1.2 数据科学家不断成长的几个阶段 3
1.2.1 算法——如何构建数据分析模型 5
1.2.2 用法——如何回头看模型 6
1.2.3 业务——如何产生更大价值 7
1.2.4 战略——如何更广 8
1.3 数据科学家的工作模式与组织结构 9
1.3.1 数据驱动还是业务驱动 9
1.3.2 数据科学家团队的组织结构 9
1.4 数据科学家的工作方法要点 10
第2章 大数据探索及预处理 13
2.1 大数据探索 13
2.1.1 数值类型 13
2.1.2 连续型数据的探索 14
2.1.3 分类型数据的探索 19
2.1.4 示例:数据探索 20
2.2 数据预处理 26
2.2.1 数据清洗 26
2.2.2 数据变换 29
2.2.3 数据归约 41
2.3 衍生指标的加工 44
2.3.1 衍生指标概述 45
2.3.2 将数值转化为百分位数 45
2.3.3 把类别变量替换为数值 46
2.3.4 多变量组合 47
2.3.5 从时间序列中提取特征 47
第3章 预测模型的新技术 49
3.1 集成学习 49
3.1.1 Averaging方法 49
3.1.2 Boosting方法 51
3.2 Gradient Tree Boosting介绍 53
3.2.1 梯度与梯度下降 53
3.2.2 Gradient Tree Boosting算法的原理 55
3.3 Gradient Tree Boosting的改进方向 57
3.3.1 Gradient Tree Boosting的使用要点 57
3.3.2 Regularization 59
3.3.3 XGBoost介绍 60
3.4 模型的最佳参数设置 60
3.5 投票决定最终预测结果 65
3.6 让模型在训练结束后还能被更新 66
3.6.1 热启动 67
3.6.2 增量学习 67
3.7 多输出预测 68
3.7.1 Binary Relevance 69
3.7.2 Classifier Chain 70
3.7.3 Ensemble Classifier Chain 70
3.8 案例:如何给客户从数百个产品中寻找合适的产品 71
3.8.1 问题提出 72
3.8.2 建模思路 72
3.8.3 模型训练及应用 73
第4章 序列分析 76
4.1 通过客户行为研究做出服务策略 76
4.2 频繁项集、关联规则的挖掘 77
4.2.1 基本概念 77
4.2.2 频繁或稀疏项集的挖掘 78
4.2.3 关联规则的挖掘 86
4.3 序列模式的挖掘以及应用 88
4.3.1 换种视角观察项间的顺序 88
4.3.2 “事无巨细”还是“事有巨细” 89
4.3.3 序列挖掘的相关算法介绍 92
4.3.4 示例:挖掘购买物品的序列模式 96
4.4 序列规则的挖掘以及应用 101
4.4.1 将频繁序列通过业务解读转换为行动指南 101
4.4.2 序列规则的挖掘实现行动指南 102
4.4.3 序列规则的挖掘算法 102
4.4.4 示例:通过客户购买产品的序列推荐合适的产品 104
4.5 序列预测的挖掘以及应用 107
4.5.1 序列规则与序列预测的关系 107
4.5.2 序列预测算法的介绍 108
4.5.3 示例:客户下一步会做什么 110
第5章 应用数据分析做出最优决策 114
5.1 Prescriptive分析概述 114
5.1.1 业务分析的3个层次 115
5.1.2 为什么需要Prescriptive分析 116
5.1.3 什么时候需要Prescriptive分析 117
5.2 确定因素和非确定因素下的决策分析 118
5.3 What-If分析和Goal Seeking分析 121
5.4 优化技术介绍 122
5.4.1 数据挖掘算法中常用的优化技术 122
5.4.2 优化问题求解工具介绍 127
5.4.3 CVXPY优化工具在机器学习算法中的应用 130
5.4.4 应用优化技术寻找最优产品推荐 134
5.5 仿真分析 135
5.5.1 蒙特卡洛的介绍 135
5.5.2 采用蒙特卡洛方法进行重采样 137
5.6 马尔可夫链及马尔可夫决策过程 143
5.6.1 马尔可夫过程及马尔可夫链 145
5.6.2 马尔可夫决策过程及应用工具 148
5.6.3 应用马尔可夫决策过程研究营销策略及客户生命周期价值 151
第6章 深入探讨CNN 155
6.1 换个角度讨论CNN 155
6.1.1 卷积是在做什么 156
6.1.2 人脸检测与人脸识别 159
6.1.3 深度学习意味着什么 165
6.1.4 CNN的结构 168
6.1.5 CNN的训练及结果 172
6.2 用CNN做人脸识别 174
6.2.1 数据加载 175
6.2.2 使用ImageDataGenerator 175
6.2.3 定义模型和训练模型 176
6.2.4 详细探究卷积最终的效果 178
6.3 Embedding 181
6.3.1 文本向量化的一般方法 181
6.3.2 Word Embedding的原理及实现 186
6.3.3 利用Word Embedding实现翻译 190
6.3.4 Embedding的用途不止于Word Embedding 192
6.4 一个例子:文本分类 193
6.4.1 采用传统分类模型实现文本分类 193
6.4.2 采用CNN进行文本分类 196
6.4.3 采用FastText进行文本分类 200
第7章 深入探讨RNN 201
7.1 两种建模方法:Prediction 和 Sequence Labeling 201
7.1.1 Prediction的特点 201
7.1.2 Sequence Labeling的特点 202
7.2 RNN及其变种的详细原理 203
7.2.1 RNN的Activation 函数 204
7.2.2 RNN 的初级神经元及计算逻辑 205
7.2.3 LSTM的神经元及计算逻辑 205
7.2.4 GRU的神经元与计算逻辑 206
7.2.5 深度RNN的原理 207
7.2.6 RNN算法的输入输出形式 208
7.3 利用LSTM预测股票价格 209
7.3.1 模型构建及验证 209
7.3.2 模型应用的探讨 216
7.4 让计算机学会写唐诗 216
7.4.1 构想:如何让计算机能够写出唐诗 216
7.4.2 构建:模型实现的过程 218
7.5 预测客户的下一个行为 221
7.5.1 构想:如何利用LSTM实现客户行为的预测 221
7.5.2 构建:模型实现过程 222
7.6 计算机,请告诉我你看到了什么 226
7.6.1 构想:如何让计算机生成图片描述 226
7.6.2 实现:逐步构建图片描述生成模型 227
7.6.3 VQA 232
第8章 深入探讨GAN 235
8.1 基本原理 235
8.1.1 构想 235
8.1.2 GAN的基本结构 237
8.1.3 GAN模型训练及应用过程 240
8.1.4 GAN原理的再探索 241
8.2 让计算机书写数字 243
8.2.1 建模思路 243
8.2.2 基本实现过程 244
8.2.3 采用DCGAN来实现 248
8.3 让计算机画一张人脸 251
8.3.1 如何让计算机理解我们的要求 252
8.3.2 基本实现过程 253
推荐序二
前言
第1章 数据科学家的成长之路 1
1.1 算法与数据科学家 1
1.1.1 数据科学、人工智能、机器学习等 2
1.1.2 室内活动还是室外活动 3
1.2 数据科学家不断成长的几个阶段 3
1.2.1 算法——如何构建数据分析模型 5
1.2.2 用法——如何回头看模型 6
1.2.3 业务——如何产生更大价值 7
1.2.4 战略——如何更广 8
1.3 数据科学家的工作模式与组织结构 9
1.3.1 数据驱动还是业务驱动 9
1.3.2 数据科学家团队的组织结构 9
1.4 数据科学家的工作方法要点 10
第2章 大数据探索及预处理 13
2.1 大数据探索 13
2.1.1 数值类型 13
2.1.2 连续型数据的探索 14
2.1.3 分类型数据的探索 19
2.1.4 示例:数据探索 20
2.2 数据预处理 26
2.2.1 数据清洗 26
2.2.2 数据变换 29
2.2.3 数据归约 41
2.3 衍生指标的加工 44
2.3.1 衍生指标概述 45
2.3.2 将数值转化为百分位数 45
2.3.3 把类别变量替换为数值 46
2.3.4 多变量组合 47
2.3.5 从时间序列中提取特征 47
第3章 预测模型的新技术 49
3.1 集成学习 49
3.1.1 Averaging方法 49
3.1.2 Boosting方法 51
3.2 Gradient Tree Boosting介绍 53
3.2.1 梯度与梯度下降 53
3.2.2 Gradient Tree Boosting算法的原理 55
3.3 Gradient Tree Boosting的改进方向 57
3.3.1 Gradient Tree Boosting的使用要点 57
3.3.2 Regularization 59
3.3.3 XGBoost介绍 60
3.4 模型的最佳参数设置 60
3.5 投票决定最终预测结果 65
3.6 让模型在训练结束后还能被更新 66
3.6.1 热启动 67
3.6.2 增量学习 67
3.7 多输出预测 68
3.7.1 Binary Relevance 69
3.7.2 Classifier Chain 70
3.7.3 Ensemble Classifier Chain 70
3.8 案例:如何给客户从数百个产品中寻找合适的产品 71
3.8.1 问题提出 72
3.8.2 建模思路 72
3.8.3 模型训练及应用 73
第4章 序列分析 76
4.1 通过客户行为研究做出服务策略 76
4.2 频繁项集、关联规则的挖掘 77
4.2.1 基本概念 77
4.2.2 频繁或稀疏项集的挖掘 78
4.2.3 关联规则的挖掘 86
4.3 序列模式的挖掘以及应用 88
4.3.1 换种视角观察项间的顺序 88
4.3.2 “事无巨细”还是“事有巨细” 89
4.3.3 序列挖掘的相关算法介绍 92
4.3.4 示例:挖掘购买物品的序列模式 96
4.4 序列规则的挖掘以及应用 101
4.4.1 将频繁序列通过业务解读转换为行动指南 101
4.4.2 序列规则的挖掘实现行动指南 102
4.4.3 序列规则的挖掘算法 102
4.4.4 示例:通过客户购买产品的序列推荐合适的产品 104
4.5 序列预测的挖掘以及应用 107
4.5.1 序列规则与序列预测的关系 107
4.5.2 序列预测算法的介绍 108
4.5.3 示例:客户下一步会做什么 110
第5章 应用数据分析做出最优决策 114
5.1 Prescriptive分析概述 114
5.1.1 业务分析的3个层次 115
5.1.2 为什么需要Prescriptive分析 116
5.1.3 什么时候需要Prescriptive分析 117
5.2 确定因素和非确定因素下的决策分析 118
5.3 What-If分析和Goal Seeking分析 121
5.4 优化技术介绍 122
5.4.1 数据挖掘算法中常用的优化技术 122
5.4.2 优化问题求解工具介绍 127
5.4.3 CVXPY优化工具在机器学习算法中的应用 130
5.4.4 应用优化技术寻找最优产品推荐 134
5.5 仿真分析 135
5.5.1 蒙特卡洛的介绍 135
5.5.2 采用蒙特卡洛方法进行重采样 137
5.6 马尔可夫链及马尔可夫决策过程 143
5.6.1 马尔可夫过程及马尔可夫链 145
5.6.2 马尔可夫决策过程及应用工具 148
5.6.3 应用马尔可夫决策过程研究营销策略及客户生命周期价值 151
第6章 深入探讨CNN 155
6.1 换个角度讨论CNN 155
6.1.1 卷积是在做什么 156
6.1.2 人脸检测与人脸识别 159
6.1.3 深度学习意味着什么 165
6.1.4 CNN的结构 168
6.1.5 CNN的训练及结果 172
6.2 用CNN做人脸识别 174
6.2.1 数据加载 175
6.2.2 使用ImageDataGenerator 175
6.2.3 定义模型和训练模型 176
6.2.4 详细探究卷积最终的效果 178
6.3 Embedding 181
6.3.1 文本向量化的一般方法 181
6.3.2 Word Embedding的原理及实现 186
6.3.3 利用Word Embedding实现翻译 190
6.3.4 Embedding的用途不止于Word Embedding 192
6.4 一个例子:文本分类 193
6.4.1 采用传统分类模型实现文本分类 193
6.4.2 采用CNN进行文本分类 196
6.4.3 采用FastText进行文本分类 200
第7章 深入探讨RNN 201
7.1 两种建模方法:Prediction 和 Sequence Labeling 201
7.1.1 Prediction的特点 201
7.1.2 Sequence Labeling的特点 202
7.2 RNN及其变种的详细原理 203
7.2.1 RNN的Activation 函数 204
7.2.2 RNN 的初级神经元及计算逻辑 205
7.2.3 LSTM的神经元及计算逻辑 205
7.2.4 GRU的神经元与计算逻辑 206
7.2.5 深度RNN的原理 207
7.2.6 RNN算法的输入输出形式 208
7.3 利用LSTM预测股票价格 209
7.3.1 模型构建及验证 209
7.3.2 模型应用的探讨 216
7.4 让计算机学会写唐诗 216
7.4.1 构想:如何让计算机能够写出唐诗 216
7.4.2 构建:模型实现的过程 218
7.5 预测客户的下一个行为 221
7.5.1 构想:如何利用LSTM实现客户行为的预测 221
7.5.2 构建:模型实现过程 222
7.6 计算机,请告诉我你看到了什么 226
7.6.1 构想:如何让计算机生成图片描述 226
7.6.2 实现:逐步构建图片描述生成模型 227
7.6.3 VQA 232
第8章 深入探讨GAN 235
8.1 基本原理 235
8.1.1 构想 235
8.1.2 GAN的基本结构 237
8.1.3 GAN模型训练及应用过程 240
8.1.4 GAN原理的再探索 241
8.2 让计算机书写数字 243
8.2.1 建模思路 243
8.2.2 基本实现过程 244
8.2.3 采用DCGAN来实现 248
8.3 让计算机画一张人脸 251
8.3.1 如何让计算机理解我们的要求 252
8.3.2 基本实现过程 253