注重体验与质量的电子书资源下载网站
分类于: 设计 职场办公
简介
搜索引擎技术基础 豆 8.3分
资源最后更新于 2020-10-22 22:37:09
作者:刘奕群
出版社:清华大学出版社
出版日期:2010-01
ISBN:9787302227960
文件格式: pdf
标签: 搜索引擎 信息检索 计算机 搜索引擎原理 互联网 IT 搜索引擎,介绍,信息检索,导论 IT技术
简介· · · · · ·
这是一本关于搜索引擎的教科书,它从研究实践者的角度介绍了搜索引擎的相关技术及其产业,并试图协助读者成为搜索引擎领域的局内人。与传统的将搜索引擎作为信息检索系统实现的一个特殊实例的做法不同,作者试图把搜索引擎作为一个独立的研究课题,从纷繁复杂的互联网数据现象和搜索引擎工作案例中提炼知识点,对现代商业搜索引擎的体系结构、运行原理、运营机制和核心算法进行总结和讲解。
本书是清华大学计算机系与百度公司合作在清华大学开设的“搜索引擎技术基础”课程的教材,适合作为高等院校信息科学技术、图书馆学等相关专业本科生与研究生相关课程的教材,也可作为相关领域技术人员与搜索引擎技术爱好者的参考资料。
目录
第1章 为什么要关注搜索引擎 1
1.1 互联网上最重要的应用系统 1
1.2 人类历史上最大规模的信息集散平台 2
1.3 学术界重要的技术研发平台 3
1.4 经济领域能够盈利的“生意” 4
第2章 搜索引擎的基本概念与发展历史 6
2.1 互联网与万维网的发展 6
2.2 英雄辈出:搜索引擎的发展历史回顾 11
2.3 搜索引擎的定义与运行原理概述 15
2.4 总结:我们能够从历史中学到什么? 17
参考文献 18
第3章 搜索引擎性能评价 20
3.1 搜索引擎评价与Cranfield评价体系 22
3.2 查询样例集合构建 24
3.2.1 查询样例集合构建中的真实性 24
3.2.2 查询样例集合构建中的代表性 26
3.2.3 查询样例集合构建中信息需求表述的完整性 27
3.3 正确答案集合构建 31
3.4 搜索引擎评价指标 34
3.5 搜索引擎性能评价的新进展 39
参考文献 42
第4章 搜索引擎体系结构概述 44
4.1 数据抓取子系统的主要功能与性能需求 46
4.1.1 及时性 47
4.1.2 全面性 50
4.1.3 高效性 51
4.2 内容索引子系统的主要功能与性能需求 54
4.2.1 内容索引子系统的主要功能 54
4.2.2 倒排索引结构 55
4.2.3 内容索引子系统的性能需求 57
4.3 内容检索子系统的主要功能与性能需求 60
4.3.1 内容检索子系统与文本信息检索系统 60
4.3.2 内容检索子系统的相关性需求 62
4.3.3 内容检索子系统的查询理解需求 64
4.3.4 内容检索子系统的效率需求 67
4.4 链接结构分析子系统的主要功能与性能需求 68
4.4.1 基于链接结构分析评价数据质量 68
4.4.2 基于链接结构分析扩展文档描述 69
4.4.3 链接结构分析子系统的效率需求 71
4.5 搜索引擎体系结构设计理念 72
参考文献 73
第5章 数据抓取子系统设计及核心算法 75
5.1 抓取系统的基本架构 75
5.2 数据抓取涉及的网络协议 77
5.2.1 URL规范 77
5.2.2 HTTP协议 78
5.2.3 User-Agent 79
5.2.4 robots协议 80
5.3 网页抓取技术 81
5.3.1 网页抓取的基本过程 81
5.3.2 基于异步I/O模型的抓取器 82
5.3.3 抓取压力控制 84
5.3.4 对URL重定向的支持 84
5.3.5 对HTTPS协议的支持 85
5.4 链接选取策略 86
5.4.1 爬虫的抓取方式 86
5.4.2 抓取优先级策略 87
5.4.3 网页的重访策略 89
5.4.4 链接去重策略 90
5.5 网页存储技术 91
5.5.1 分布式哈希存储系统 92
5.5.2 基于BigTable 的网页存储系统 94
参考文献 94
第6章 内容索引子系统设计及核心算法 96
6.1 最小的语义单位--词项 97
6.1.1 中文分词问题 97
6.1.2 英文词干抽取 101
6.1.3 停用词去除 102
6.1.4 词项列表的构建 103
6.2 索引的数据结构 105
6.2.1 词项出现信息记录 105
6.2.2 倒排索引和正排索引 108
6.2.3 索引的并行存储结构 108
6.3 索引子系统的运行方式 111
6.3.1 预处理 111
6.3.2 建立索引 113
6.3.3 使用索引 117
参考文献 119
第7章 内容检索子系统设计及其核心算法 121
7.1 文本信息检索模型 121
7.1.1 布尔模型 122
7.1.2 向量空间模型 124
7.1.3 概率模型 129
7.1.4 语言模型 131
7.2 内容检索子系统运行方式 136
7.2.1 内容相似程度 136
7.2.2 数据质量评估结果 138
7.2.3 用户偏好情况 139
7.2.4 竞价排名情况 140
7.2.5 合并排序依据 141
参考文献 142
第8章 链接结构分析子系统设计及核心算法 144
8.1 万维网链接结构图 144
8.1.1 万维网链接图的规模 145
8.1.2 万维网链接图的连通情况 146
8.1.3 万维网链接图的入度和出度分布 148
8.2 超链接结构分析的基础 149
8.3 HITS算法的基本思路及实现 153
8.4 PageRank算法的基本思路及实现 156
8.5 链接结构分析结果的应用与排序因素融合 163
参考文献 165
第9章 万维网数据质量评估 167
9.1 万维网数据质量评估困境 168
9.2 数据质量评估的解决思路 169
9.2.1 宏观粒度网络数据质量评估技术 169
9.2.2 微观粒度网络数据质量评估技术 170
9.2.3 冗余页面识别技术 172
9.2.4 网络数据质量评估方式总述 173
9.3 面向搜索引擎需求的网络数据质量定义 174
9.3.1 基于万维网链接结构分析的网页质量定义 174
9.3.2 基于搜索引擎用户信息需求分析的网页质量定义 174
9.4 基于万维网链接结构分析的网页质量评估 176
9.4.1 PageRank在真实万维网环境中的困境 176
9.4.2 用户访问数据与用户浏览关系图 179
9.4.3 基于用户浏览关系图的页面质量评估 180
9.5 基于搜索引擎用户信息需求分析的网页质量评估 182
9.5.1 网页查询无关特征 182
9.5.2 查询目标页面与普通页面的差异分析 183
9.5.3 查询目标页面与普通页面的长度特征差异 184
9.5.4 查询目标页面与普通页面的PageRank特征差异 185
9.5.5 基于用户信息需求分析的网页质量评估方法 186
9.5.6 基于用户信息需求分析的网页质量评估效果 187
参考文献 190
第10章 万维网垃圾网页识别 193
10.1 垃圾网页作弊方式 195
10.1.1 基于内容的作弊方式 195
10.1.2 基于链接的作弊方式 205
10.1.3 垃圾网页作弊与搜索引擎优化 210
10.2 垃圾网页盈利方式 211
10.2.1 垃圾网页作弊目的及其分类 212
10.2.2 促进广告浏览及点击 213
10.2.3 促进移动增值服务订制 214
10.2.4 促进站点访问流量提升 215
10.2.5 欺诈和违法信息宣传 215
10.2.6 软件产品推广 217
10.2.7 垃圾网页作弊目的分布情况 218
10.3 垃圾网页识别方法 219
10.3.1 垃圾网页识别的效果评价 219
10.3.2 基于网页内容的垃圾网页识别 222
10.3.3 基于链接结构的垃圾网页识别 228
10.3.4 基于用户行为的垃圾网页识别 231
参考文献 233
第11章 搜索引擎广告技术 235
11.1 引言 235
11.2 历史、现状和未来 235
11.3 搜索引擎付费搜索原理 240
11.4 搜索引擎广告的检索和匹配算法 244
11.5 计算广告学 245
参考文献 248
第12章 中文搜索引擎的现状与未来 251
12.1 国内外搜索引擎市场的发展现状 251
12.2 搜索引擎的未来发展展望 254
12.2.1 手持设备搜索 254
12.2.2 暗网数据与用户产生内容(UGC)的获取 255
12.2.3 搜索引擎将成为社会和自然科学研究的重要平台? 255
12.2.4 搜索引擎向其他产业进军 256
本书特色 257
1.1 互联网上最重要的应用系统 1
1.2 人类历史上最大规模的信息集散平台 2
1.3 学术界重要的技术研发平台 3
1.4 经济领域能够盈利的“生意” 4
第2章 搜索引擎的基本概念与发展历史 6
2.1 互联网与万维网的发展 6
2.2 英雄辈出:搜索引擎的发展历史回顾 11
2.3 搜索引擎的定义与运行原理概述 15
2.4 总结:我们能够从历史中学到什么? 17
参考文献 18
第3章 搜索引擎性能评价 20
3.1 搜索引擎评价与Cranfield评价体系 22
3.2 查询样例集合构建 24
3.2.1 查询样例集合构建中的真实性 24
3.2.2 查询样例集合构建中的代表性 26
3.2.3 查询样例集合构建中信息需求表述的完整性 27
3.3 正确答案集合构建 31
3.4 搜索引擎评价指标 34
3.5 搜索引擎性能评价的新进展 39
参考文献 42
第4章 搜索引擎体系结构概述 44
4.1 数据抓取子系统的主要功能与性能需求 46
4.1.1 及时性 47
4.1.2 全面性 50
4.1.3 高效性 51
4.2 内容索引子系统的主要功能与性能需求 54
4.2.1 内容索引子系统的主要功能 54
4.2.2 倒排索引结构 55
4.2.3 内容索引子系统的性能需求 57
4.3 内容检索子系统的主要功能与性能需求 60
4.3.1 内容检索子系统与文本信息检索系统 60
4.3.2 内容检索子系统的相关性需求 62
4.3.3 内容检索子系统的查询理解需求 64
4.3.4 内容检索子系统的效率需求 67
4.4 链接结构分析子系统的主要功能与性能需求 68
4.4.1 基于链接结构分析评价数据质量 68
4.4.2 基于链接结构分析扩展文档描述 69
4.4.3 链接结构分析子系统的效率需求 71
4.5 搜索引擎体系结构设计理念 72
参考文献 73
第5章 数据抓取子系统设计及核心算法 75
5.1 抓取系统的基本架构 75
5.2 数据抓取涉及的网络协议 77
5.2.1 URL规范 77
5.2.2 HTTP协议 78
5.2.3 User-Agent 79
5.2.4 robots协议 80
5.3 网页抓取技术 81
5.3.1 网页抓取的基本过程 81
5.3.2 基于异步I/O模型的抓取器 82
5.3.3 抓取压力控制 84
5.3.4 对URL重定向的支持 84
5.3.5 对HTTPS协议的支持 85
5.4 链接选取策略 86
5.4.1 爬虫的抓取方式 86
5.4.2 抓取优先级策略 87
5.4.3 网页的重访策略 89
5.4.4 链接去重策略 90
5.5 网页存储技术 91
5.5.1 分布式哈希存储系统 92
5.5.2 基于BigTable 的网页存储系统 94
参考文献 94
第6章 内容索引子系统设计及核心算法 96
6.1 最小的语义单位--词项 97
6.1.1 中文分词问题 97
6.1.2 英文词干抽取 101
6.1.3 停用词去除 102
6.1.4 词项列表的构建 103
6.2 索引的数据结构 105
6.2.1 词项出现信息记录 105
6.2.2 倒排索引和正排索引 108
6.2.3 索引的并行存储结构 108
6.3 索引子系统的运行方式 111
6.3.1 预处理 111
6.3.2 建立索引 113
6.3.3 使用索引 117
参考文献 119
第7章 内容检索子系统设计及其核心算法 121
7.1 文本信息检索模型 121
7.1.1 布尔模型 122
7.1.2 向量空间模型 124
7.1.3 概率模型 129
7.1.4 语言模型 131
7.2 内容检索子系统运行方式 136
7.2.1 内容相似程度 136
7.2.2 数据质量评估结果 138
7.2.3 用户偏好情况 139
7.2.4 竞价排名情况 140
7.2.5 合并排序依据 141
参考文献 142
第8章 链接结构分析子系统设计及核心算法 144
8.1 万维网链接结构图 144
8.1.1 万维网链接图的规模 145
8.1.2 万维网链接图的连通情况 146
8.1.3 万维网链接图的入度和出度分布 148
8.2 超链接结构分析的基础 149
8.3 HITS算法的基本思路及实现 153
8.4 PageRank算法的基本思路及实现 156
8.5 链接结构分析结果的应用与排序因素融合 163
参考文献 165
第9章 万维网数据质量评估 167
9.1 万维网数据质量评估困境 168
9.2 数据质量评估的解决思路 169
9.2.1 宏观粒度网络数据质量评估技术 169
9.2.2 微观粒度网络数据质量评估技术 170
9.2.3 冗余页面识别技术 172
9.2.4 网络数据质量评估方式总述 173
9.3 面向搜索引擎需求的网络数据质量定义 174
9.3.1 基于万维网链接结构分析的网页质量定义 174
9.3.2 基于搜索引擎用户信息需求分析的网页质量定义 174
9.4 基于万维网链接结构分析的网页质量评估 176
9.4.1 PageRank在真实万维网环境中的困境 176
9.4.2 用户访问数据与用户浏览关系图 179
9.4.3 基于用户浏览关系图的页面质量评估 180
9.5 基于搜索引擎用户信息需求分析的网页质量评估 182
9.5.1 网页查询无关特征 182
9.5.2 查询目标页面与普通页面的差异分析 183
9.5.3 查询目标页面与普通页面的长度特征差异 184
9.5.4 查询目标页面与普通页面的PageRank特征差异 185
9.5.5 基于用户信息需求分析的网页质量评估方法 186
9.5.6 基于用户信息需求分析的网页质量评估效果 187
参考文献 190
第10章 万维网垃圾网页识别 193
10.1 垃圾网页作弊方式 195
10.1.1 基于内容的作弊方式 195
10.1.2 基于链接的作弊方式 205
10.1.3 垃圾网页作弊与搜索引擎优化 210
10.2 垃圾网页盈利方式 211
10.2.1 垃圾网页作弊目的及其分类 212
10.2.2 促进广告浏览及点击 213
10.2.3 促进移动增值服务订制 214
10.2.4 促进站点访问流量提升 215
10.2.5 欺诈和违法信息宣传 215
10.2.6 软件产品推广 217
10.2.7 垃圾网页作弊目的分布情况 218
10.3 垃圾网页识别方法 219
10.3.1 垃圾网页识别的效果评价 219
10.3.2 基于网页内容的垃圾网页识别 222
10.3.3 基于链接结构的垃圾网页识别 228
10.3.4 基于用户行为的垃圾网页识别 231
参考文献 233
第11章 搜索引擎广告技术 235
11.1 引言 235
11.2 历史、现状和未来 235
11.3 搜索引擎付费搜索原理 240
11.4 搜索引擎广告的检索和匹配算法 244
11.5 计算广告学 245
参考文献 248
第12章 中文搜索引擎的现状与未来 251
12.1 国内外搜索引擎市场的发展现状 251
12.2 搜索引擎的未来发展展望 254
12.2.1 手持设备搜索 254
12.2.2 暗网数据与用户产生内容(UGC)的获取 255
12.2.3 搜索引擎将成为社会和自然科学研究的重要平台? 255
12.2.4 搜索引擎向其他产业进军 256
本书特色 257