logo
分类于: 计算机基础 其它

简介

数据挖掘原理

数据挖掘原理 7.1分

资源最后更新于 2020-09-27 15:06:41

作者:David Hand

译者:张银奎

出版社:机械工业出版社

出版日期:2003-01

ISBN:9787111115779

文件格式: pdf

标签: 数据挖掘 计算机 datamining 机器学习 统计学 BI 数据库 挖掘

简介· · · · · ·

很多学科都面临着一个普遍问题:如何存储、访问异常庞大的数据集,并用模型来描述和理解它们?这些问题使得人们对数据挖掘技术的兴趣不断增强。长期以来,很多相互独立的不同学科分别致力于数据挖掘的各个方面。本书把信息科学、计算科学和统计学在数据挖掘方面的应用融合在一起,是第一本真正和跨学科教材。

本书由三部分构成。第一部分是基础,介绍了数据挖掘算法及其应用所依赖的基本原理。讲座方法直观易懂,深入浅出。第二部分是数据挖掘算法,系统讲座了如何构建求解特定问题的不同算法。讲座的内容包括用于分类和回归的树及规则、关联规则、信念网络、传统统计模型,以及各种非线性模型,比如神经网络和“基于记忆”的局部模型。第三部分介绍了如何应用前面讲座的算法和原理来解决现实世界中的数据挖掘问题。谈到的问题包括元数据的作用,如何处理残缺数据,以及数据预处理。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

第1章 给论
1.1 数据挖掘简介
1.2 数据集属性
1.3 结构类型:模型和模式
1.4 数据挖掘任务
1.5 数据挖掘算法的组件
1.5.1 评分函数
1.5.2 优化和搜索方法
1.5.3 数据管理策略
1.6 统计和数据挖掘的相互关系
1.7 数据挖掘:打捞、探查还是垂钓
1.8 本章归纳
1.9 补充读物
第2章 测量和数据
2.1 简介
2.2 测量类型
2.3 距离尺度
2.4 数据转化
2.5 数据形式
2.6 单个测量的数据质量
2.7 数据群体的数据质量
2.8 本章归纳
2.9 补充读物
第3章 可视化和探索数据
3.1 简介
3.2 总结数据:几个简单例子
3.3 显示单个变量的一些工具
3.4 显示两个变量间关系的工具
3.5 显示两个以上变量间关系的工具
3.6 主分量分析
3.7 多维缩放
3.8 补充读物
第4章 数据分析和不确定性
4.1 简介
4.2 处理不确定性
4.3 随机变量和它们的关系
4.4 样本和统计推理
4.5 估计
4.5.1 估计量的理想属性
4.5.2 最大似然估计
4.5.3 贝叶斯估计
4.6 假设检验
4.6.1 古典假设检验
4.6.2 数据挖掘中的假设检验
4.7 采样方法
4.8 本章归纳
4.9 补充读物
第5章 数据挖掘算法概览
5.1 简介
5.2 建立树分类器的CART算法
5.3 数据挖掘算法的化约主义观点
5.3.1 用于回归和分类的多层感知器
5.3.2 关联规则学习的A Priori算法
5.3.3 检索文本的向量空间算法
5.4 讨论
5.5 补充读物
第6章 模型和模式
6.1 概述
6.2 建模基础
6.3 用于预测的模型结构
6.3.1 具有线性结构的回归模型
6.3.2 用于回归的局部分段模型结构
6.3.3 “基于记忆”的非参数局部模型
6.3.4 模型结构的随机部分
6.3.5 用于分类的预测模型
6.3.6 选择适当复杂度的模型
6.4 概率分布和密度函数模型
6.4.1 一般概念
6.4.2 混合模型
6.4.3 无序范畴型数据的联合分布
6.4.4 因式分解和高维空间中的独立性
6.5 维度效应
6.5.1 高维数据的变量选择
6.5.2 高维数据的变换
6.6 用于结构化数据的模型
6.7 模式结构
6.7.1 数据矩阵中的模式
6.7.2 字符串模式
6.3 参考读物
第7章 数据挖掘算法的评分函数
7.1 简介
7.2 对模式进行评价
7.3 预测性评分函数和描述性评分函数
7.3.1 评价预测模型的评分函数
7.3.2 评价描述模型的评分函数
7.4 评价不同复杂度的模型
7.4.1 模型比较的一般概念
7.4.2 再谈偏差一方差
7.4.3 惩罚复杂模型的评分函数
7.4.4 使用外部验证的评分函数
7.5 模型和模式的评价
7.6 鲁棒方法
7.7 补充读物
第8章 搜索和优化方法
8.1 简介
8.2 搜索模型或模式
8.2.1 搜索背景
8.2.2 数据挖掘中的状态空间搜索
8.2.3 简单贪婪搜索算法
8.2.4 系统搜索和搜索启示
8.2.5 分支定界法
8.3 参数优化方法
8.3.1 参数优化:背景
8.3.2 闭合形式解和线性代数方法
8.3.3 优化平滑函数的基于梯度方法
8.3.4 一元参数优化
8.3.5 多元参数优化
8.3.6 约束优化
8.4 存在残缺数据时的优化:EM算法
8.5 在线和单扫描算法
8.6 随机搜索和优化技术
8.7 补充读物
第9章 描述建模
9.1 简介
9.2 通过概率分布和密度描述数据
9.2.1 简介
9.2.2 用来估计概率分布和密度的评分函数
9.2.3 参数密度模型
9.2.4 混合分布和密度
9.2.5 混合模型的EM算法
9.2.6 非参数的密度估计
9.2.7 范畴型数据的联合分布
9.3 聚类分析背景
9.4 基于划分的聚类算法
9.4.1基于划分聚类的评分函数
9.4.2 基于划分聚类的基本算法
9.5 层次聚类
9.5.1 凝聚方法
9.5.2 分裂方法
9.6 基于混合模型的概率聚类
9.7 补充读物
第10章 用于分类的预测建模
10.1 预测建模概览
10.2 分类建模简介
10.2.1 判别分类和决策边界
10.2.2 分类的概率模型
10.2.3 建立实际的分类器
10.3 感知器
10.4 线性判别式
10.5 树模型
10.6 最近邻方法
10.7 1ogistic判别式分析
10.8 朴素贝叶斯模型
10.9 其他方法
10.10 分类器的评估和比较
10.11 高维分类的特征选取
10.12 补充读物
第11章 用于回归的预测建模
11.1简介
11.2 线性模型和最小二乘法拟合
11.2.1 拟合模型的计算问题
11.2.2 线性回归的概率解释
11.2.3 拟合后模型的解释
11.2.4 推理和泛化
11.2.5 模型搜索和建模
11.2.6 模型诊断和审查
11.3 推广的线性模型
11.4 人工神经网络
11.5 其他高度参数化的模型
11.5.1 推广的相加模型
11.5.2 投影追踪回归
11.6 补充读物
第12章 数据组织和数据库
12.1 简介
12.2 存储器层次
12.3 索引结构
12.3.1 B-树
12.3.2 哈希索引
12.4 多维索引
12.5 关系数据库
12.6 操纵表格
12.7 结构化查询语言
12.8 查询的执行和优化
12.9 数据仓库和在线分析处理
12.10 O1AP的数据结构
12.11 字符串数据库
12.12 海量数据集、数据管理和数据挖掘
12.12.1 把数据都放入主存储器
12.12.2 数据挖掘算法的可伸缩版本
12.12.3 考虑磁盘访问的有针对性算法
12.12.4 伪数据集和充分统计量
12.13 补充读物
第13章 寻找模式和规则
13.1 简介
13.2 规则表示
13.3 频繁项集和关联规则
13.3.1 简介
13.3.2 寻找频繁集和关联规则
13.4 推广
13.5 寻找序列中的片段
13.6 选择发现的模式和规则
13.6.1 简介
13.6.2 寻找模式的启发式搜索
13.6.3 有趣度标准
13.7 从局部模式到全局模型
13.8 预测规则归纳
13.9 补充读物
第14章 根据内容检索
14.1 简介
14.2 检索系统的评价
14.2.1 评价检索性能的困难之处
14.2.2 查准率对查全率
14.2.3 查准率和查全率的实践应用
14.3 文本检索
14.3.1 文本的表示
14.3.2 匹配查询和文档
14.3.3 隐含语义索引
14.3.4 文档和文本分类
14.4 对个人偏好建模
14.4.1 相关性反馈
14.4.2 自动推荐系统
14.5 图像检索
14.5.1 图像理解
14.5.2 图像表示
14.5.3 图像查询
14.5.4 图像恒定性
14.5.5 图像检索的推广
14.6 时间序列和序列检索
14.6.1 时间序列数据的全局模型
14.6.2 时间序列的结构和形状
14.7 本章归纳
14.8 补充读物
附录 随机变量
参考文献
索引