注重体验与质量的电子书资源下载网站
分类于: 互联网 其它
简介
统计思维: 程序员数学之概率统计(第2版) 豆 8.1分
资源最后更新于 2020-07-24 15:47:57
作者:[美] Allen B. Downey
译者:金迎
出版社:人民邮电出版社
出版日期:2015-01
ISBN:9787115401083
文件格式: pdf
标签: 统计 Python 数据分析 统计学 数学 概率 计算机科学 计算机
简介· · · · · ·
现实工作中,人们常常需要用数据说话。可是,数据自己不会说话,需要人对它进行分析和挖掘才能找到有价值的信息。概率统计是数据分析的通用语言,是大数据时代预测未来的根基。如果你有编程背景,就能以概率和统计学为工具,将数据转化为有用的信息和知识,让数据说话。本书介绍了如何借助计算而非数学方法,使用Python语言对数据进行统计分析。
通过书中有趣的案例,你可以学到探索性数据分析的整个过程,从数据收集和生成统计量,到发现模式和检验假设。你还将探索概率分布、概率法则、可视化技术,以及其他许多工具和概念。
这一版内容较第1版有很多改动,并且新增了回归、时间序列分析、生存分析和分析方法章节,以丰富你的知识。
目录
前言 xi
第1章 探索性数据分析 1
1.1 统计学方法 2
1.2 全国家庭增长调查 2
1.3 数据导入 3
1.4 DataFrame 4
1.5 变量 6
1.6 数据变换 6
1.7 数据验证 8
1.8 解释数据 9
1.9 练习 10
1.10 术语 11
第2章 分布 13
2.1 表示直方图 14
2.2 绘制直方图 14
2.3 全国家庭增长调查中的变量 15
2.4 离群值 18
2.5 第一胎 18
2.6 分布概述 20
2.7 方差 21
2.8 效应量 21
2.9 报告结果 22
2.10 练习 23
2.11 术语 23
第3章 概率质量函数 25
3.1 概率质量函数 25
3.2 绘制PMF 26
3.3 绘制PMF 的其他方法 28
3.4 课堂规模悖论 29
3.5 使用DataFrame进行索引 31
3.6 练习 33
3.7 术语 34
第4章 累积分布函数 35
4.1 PMF的局限 35
4.2 百分位数 36
4.3 CDF 37
4.4 表示CDF 38
4.5 比较CDF 39
4.6 基于百分位数的统计量 40
4.7 随机数 41
4.8 比较百分位秩 42
4.9 练习 43
4.10 术语 44
第5章 分布建模 45
5.1 指数分布 45
5.2 正态分布 48
5.3 正态概率图 49
5.4 对数正态分布 51
5.5 Pareto 分布 53
5.6 随机数生成 56
5.7 为什么使用模型 56
5.8 练习 57
5.9 术语 59
第6章 概率密度函数 61
6.1 PDF 61
6.2 核密度估计 63
6.3 分布框架 65
6.4 Hist实现 65
6.5 Pmf实现 66
6.6 Cdf实现 67
6.7 矩 68
6.8 偏度 69
6.9 练习 72
6.10 术语 73
第7章 变量之间的关系 75
7.1 散点图 75
7.2 描述关系特征 78
7.3 相关性 79
7.4 协方差 80
7.5 Pearson相关性 81
7.6 非线性关系 82
7.7 Spearman秩相关 82
7.8 相关性和因果关系 83
7.9 练习 84
7.10 术语 85
第8章 估计 87
8.1 估计游戏 87
8.2 猜测方差 89
8.3 抽样分布 90
8.4 抽样偏倚 93
8.5 指数分布 93
8.6 练习 95
8.7 术语 95
第9章 假设检验 97
9.1 经典假设检验 97
9.2 假设检验 98
9.3 检验均值差 100
9.4 其他检验统计量 101
9.5 检验相关性 102
9.6 检验比例 103
9.7 卡方检验 104
9.8 再谈第一胎 105
9.9 误差 106
9.10 功效 107
9.11 复现 108
9.12 练习 109
9.13 术语 109
第10章 线性最小二乘法 111
10.1 最小二乘法拟合 111
10.2 实现 112
10.3 残差 113
10.4 估计 114
10.5 拟合优度 116
10.6 检验线性模型 118
10.7 加权重抽样 119
10.8 练习 121
10.9 术语 121
第11章 回归 123
11.1 StatsModels 124
11.2 多重回归 125
11.3 非线性关系 127
11.4 数据挖掘 128
11.5 预测 129
11.6 Logistic回归 131
11.7 估计参数 132
11.8 实现 133
11.9 准确度 134
11.10 练习 135
11.11 术语 136
第12章 时间序列分析 139
12.1 导入和清洗数据 139
12.2 绘制图形 141
12.3 线性回归 143
12.4 移动平均值 144
12.5 缺失值 146
12.6 序列相关 148
12.7 自相关 149
12.8 预测 150
12.9 参考书目 154
12.10 练习 154
12.11 术语 155
第13章 生存分析 157
13.1 生存曲线 157
13.2 危险函数 159
13.3 估计生存曲线 160
13.4 Kaplan-Meier估计 161
13.5 婚姻曲线 162
13.6 估计生存函数 163
13.7 置信区间 164
13.8 群组效应 166
13.9 外推 168
13.10 预期剩余生存期 169
13.11 练习 171
13.12 术语 172
第14章 分析方法 173
14.1 正态分布 173
14.2 抽样分布 174
14.3 表示正态分布 175
14.4 中心极限定理 176
14.5 检验CLT 177
14.6 应用CLT 180
14.7 相关检验 181
14.8 卡方检验 183
14.9 讨论 184
14.10 练习 184
作者介绍 186
封面介绍 186
第1章 探索性数据分析 1
1.1 统计学方法 2
1.2 全国家庭增长调查 2
1.3 数据导入 3
1.4 DataFrame 4
1.5 变量 6
1.6 数据变换 6
1.7 数据验证 8
1.8 解释数据 9
1.9 练习 10
1.10 术语 11
第2章 分布 13
2.1 表示直方图 14
2.2 绘制直方图 14
2.3 全国家庭增长调查中的变量 15
2.4 离群值 18
2.5 第一胎 18
2.6 分布概述 20
2.7 方差 21
2.8 效应量 21
2.9 报告结果 22
2.10 练习 23
2.11 术语 23
第3章 概率质量函数 25
3.1 概率质量函数 25
3.2 绘制PMF 26
3.3 绘制PMF 的其他方法 28
3.4 课堂规模悖论 29
3.5 使用DataFrame进行索引 31
3.6 练习 33
3.7 术语 34
第4章 累积分布函数 35
4.1 PMF的局限 35
4.2 百分位数 36
4.3 CDF 37
4.4 表示CDF 38
4.5 比较CDF 39
4.6 基于百分位数的统计量 40
4.7 随机数 41
4.8 比较百分位秩 42
4.9 练习 43
4.10 术语 44
第5章 分布建模 45
5.1 指数分布 45
5.2 正态分布 48
5.3 正态概率图 49
5.4 对数正态分布 51
5.5 Pareto 分布 53
5.6 随机数生成 56
5.7 为什么使用模型 56
5.8 练习 57
5.9 术语 59
第6章 概率密度函数 61
6.1 PDF 61
6.2 核密度估计 63
6.3 分布框架 65
6.4 Hist实现 65
6.5 Pmf实现 66
6.6 Cdf实现 67
6.7 矩 68
6.8 偏度 69
6.9 练习 72
6.10 术语 73
第7章 变量之间的关系 75
7.1 散点图 75
7.2 描述关系特征 78
7.3 相关性 79
7.4 协方差 80
7.5 Pearson相关性 81
7.6 非线性关系 82
7.7 Spearman秩相关 82
7.8 相关性和因果关系 83
7.9 练习 84
7.10 术语 85
第8章 估计 87
8.1 估计游戏 87
8.2 猜测方差 89
8.3 抽样分布 90
8.4 抽样偏倚 93
8.5 指数分布 93
8.6 练习 95
8.7 术语 95
第9章 假设检验 97
9.1 经典假设检验 97
9.2 假设检验 98
9.3 检验均值差 100
9.4 其他检验统计量 101
9.5 检验相关性 102
9.6 检验比例 103
9.7 卡方检验 104
9.8 再谈第一胎 105
9.9 误差 106
9.10 功效 107
9.11 复现 108
9.12 练习 109
9.13 术语 109
第10章 线性最小二乘法 111
10.1 最小二乘法拟合 111
10.2 实现 112
10.3 残差 113
10.4 估计 114
10.5 拟合优度 116
10.6 检验线性模型 118
10.7 加权重抽样 119
10.8 练习 121
10.9 术语 121
第11章 回归 123
11.1 StatsModels 124
11.2 多重回归 125
11.3 非线性关系 127
11.4 数据挖掘 128
11.5 预测 129
11.6 Logistic回归 131
11.7 估计参数 132
11.8 实现 133
11.9 准确度 134
11.10 练习 135
11.11 术语 136
第12章 时间序列分析 139
12.1 导入和清洗数据 139
12.2 绘制图形 141
12.3 线性回归 143
12.4 移动平均值 144
12.5 缺失值 146
12.6 序列相关 148
12.7 自相关 149
12.8 预测 150
12.9 参考书目 154
12.10 练习 154
12.11 术语 155
第13章 生存分析 157
13.1 生存曲线 157
13.2 危险函数 159
13.3 估计生存曲线 160
13.4 Kaplan-Meier估计 161
13.5 婚姻曲线 162
13.6 估计生存函数 163
13.7 置信区间 164
13.8 群组效应 166
13.9 外推 168
13.10 预期剩余生存期 169
13.11 练习 171
13.12 术语 172
第14章 分析方法 173
14.1 正态分布 173
14.2 抽样分布 174
14.3 表示正态分布 175
14.4 中心极限定理 176
14.5 检验CLT 177
14.6 应用CLT 180
14.7 相关检验 181
14.8 卡方检验 183
14.9 讨论 184
14.10 练习 184
作者介绍 186
封面介绍 186