注重体验与质量的电子书资源下载网站
分类于: 计算机基础 其它
简介
现代信息检索 豆 0.0分
资源最后更新于 2020-08-23 16:21:05
作者:Ricardo Baeza-Yates
译者:黄萱菁
出版社:机械工业出版社
出版日期:2012-01
ISBN:9787111385998
文件格式: pdf
标签: 信息检索 搜索引擎 计算机 数据挖掘 计算机科学 黄萱菁 计算机科学丛书 計算機
简介· · · · · ·
《现代信息检索(原书第2版)》论述信息检索的概念和技术、这些技术在搜索引擎中的应用,及其对相关领域知识的影响等,主要内容包括:用户界面设计;经典的信息检索模型、结果质量评估和用户相关反馈;文档和查询概念及其相关技术;文档集索引和搜索技术;web文档的爬取、检索和排序;结构化文本检索、多媒体检索和企业搜索;图书馆系统和数字图书馆等。
Ricardo Baeza-Yates和Berthier Ribeiro-Neto的《现代信息检索(原书第2版)》内容广泛、细节丰富、深入浅出,可以作为高等院校信息管理与信息系统、计算机科学与技术、图书馆学、情报学、档案学等专业本科生和研究生的教材或参考书,对从事信息检索及系统分析、设计的实际工作者也有较高的参考价值。
目录
出版者的话
译者序
第2版前言
第1版前言
第2版致谢
第1版致谢
出版商致谢
第1章 引言1
1.1 信息检索1
1.1.1 信息检索的早期发展1
1.1.2 图书馆和数字图书馆中的信息检索2
1.1.3 舞台中央的信息检索2
1.2 信息检索问题3
1.2.1 用户的任务3
1.2.2 信息检索与数据检索4
1.3 信息检索系统4
1.3.1 信息检索系统的软件架构4
1.3.2 检索和排序过程5
1.4 Web6
1.4.1 Web简史7
1.4.2 电子出版时代7
1.4.3 Web如何改变搜索8
1.4.4 Web上的实际问题9
1.5 本书的组织结构9
1.5.1 本书的重点9
1.5.2 本书的内容10
1.6 本书的教学资源网站12
1.7 文献讨论12
第2章 用户搜索界面16
2.1 介绍16
2.2 人们如何搜索16
2.2.1 信息查找与探索式搜索16
2.2.2 信息搜寻的经典模型与动态模型17
2.2.3 导航与搜索18
2.2.4 对搜索过程的观察18
2.3 现今的搜索界面19
2.3.1 启动搜寻19
2.3.2 查询描述19
2.3.3 查询描述界面20
2.3.4 检索结果显示22
2.3.5 查询重构24
2.3.6 组织搜索结果26
2.4 搜索界面的可视化32
2.4.1 可视化布尔语法32
2.4.2 可视化查询结果中的查询项33
2.4.3 可视化词语和文档间的关系36
2.4.4 文本挖掘的可视化38
2.5 搜索界面的设计和评价40
2.6 趋势和研究问题42
2.7 文献讨论42
第3章 信息检索建模44
3.1 信息检索模型44
3.1.1 建模和排序44
3.1.2 信息检索模型描述44
3.1.3 信息检索模型的分类体系45
3.2 经典信息检索47
3.2.1 基本概念47
3.2.2 布尔模型49
3.2.3 项权重50
3.2.4 TF-IDF权重52
3.2.5 文档长度归一化56
3.2.6 向量模型57
3.2.7 概率模型59
3.2.8 经典模型之间的简单比较64
3.3 其他集合论模型64
3.3.1 基于集合的模型64
3.3.2 扩展布尔模型68
3.3.3 模糊集模型70
3.4 其他代数模型72
3.4.1 广义向量空间模型72
3.4.2 潜在语义索引模型74
3.4.3 神经网络模型75
3.5 其他概率模型76
3.5.1 BM25模型77
3.5.2 语言模型78
3.5.3 随机差异模型83
3.5.4 贝叶斯网模型85
3.6 其他模型90
3.6.1 超文本模型90
3.6.2 基于Web的模型91
3.6.3 结构化文本检索91
3.6.4 多媒体检索92
3.6.5 企业和垂直搜索92
3.7 趋势和研究问题92
3.8 文献讨论93
第4章 检索评价96
4.1 介绍96
4.2 Cranfield范式97
4.2.1 历史简述97
4.2.2 参考集98
4.3 检索指标98
4.3.1 精度和召回率98
4.3.2 单值总结:P@n,MAP,MRR,F102
4.3.3 面向用户的指标105
4.3.4 折扣累积增益106
4.3.5 二元偏好109
4.3.6 排序相关性测度111
4.4 参考文档集115
4.4.1 TREC参考集115
4.4.2 其他参考集121
4.4.3 其他小规模测试文档集121
4.5 基于用户的评价122
4.5.1 实验室中的人工实验122
4.5.2 并排面板122
4.5.3 A/B测试123
4.5.4 众包124
4.5.5 使用点击数据的评价125
4.6 实践说明126
4.7 趋势和研究问题127
4.8 文献讨论127
第5章 相关反馈与查询扩展129
5.1 介绍129
5.2 反馈方法的框架129
5.3 显式相关反馈131
5.3.1 向量模型的相关反馈:Rocchio方法131
5.3.2 概率模型的相关反馈133
5.3.3 相关反馈的评价134
5.4 基于点击的显式反馈134
5.4.1 眼动追踪和相关性评价134
5.4.2 用户行为135
5.4.3 点击作为用户偏好的指标136
5.5 通过局部分析的隐式反馈138
5.5.1 通过局部聚类的隐式反馈138
5.5.2 通过局部上下文分析的隐式反馈140
5.6 通过全局分析的隐式反馈141
5.6.1 基于相似度同义词典的查询扩展141
5.6.2 基于统计同义词典的查询扩展143
5.7 趋势和研究问题145
5.8 文献讨论145
第6章 文档:语言及属性147
6.1 介绍147
6.2 元数据148
6.3 文档格式149
6.3.1 文本149
6.3.2 多媒体149
6.3.3 图形和虚拟现实150
6.4 标记语言151
6.4.1 SGML151
6.4.2 HTML153
6.4.3 XML155
6.4.4 RDF157
6.4.5 HyTime158
6.5 文本属性159
6.5.1 信息论159
6.5.2 自然语言建模159
6.5.3 文本相似度162
6.6 文档预处理163
6.6.1 文本的词汇分析163
6.6.2 去除禁用词164
6.6.3 词干提取165
6.6.4 关键词选择166
6.6.5 同义词典166
6.7 组织文档168
6.7.1 分类体系法168
6.7.2 分众分类法169
6.8 文本压缩170
6.8.1 基本概念170
6.8.2 统计方法171
6.8.3 统计方法:建模171
6.8.4 统计方法:编码173
6.8.5 字典方法179
6.8.6 压缩预处理180
6.8.7 文本压缩技术的比较181
6.8.8 结构化文本压缩182
6.9 趋势和研究问题183
6.10 文献讨论185
第7章 查询:语言及属性187
7.1 查询语言187
7.1.1 基于关键词的查询188
7.1.2 非关键词查询190
7.1.3 结构化查询192
7.1.4 查询协议194
7.2 查询属性195
7.2.1 Web查询的特征195
7.2.2 用户搜索行为197
7.2.3 查询意图197
7.2.4 查询主题199
7.2.5 查询会话与任务200
7.2.6 查询难度200
7.3 趋势和研究问题203
7.4 文献讨论204
第8章 文本分类205
8.1 介绍205
8.2 文本分类的特性描述206
8.2.1 机器学习206
8.2.2 文本分类问题206
8.2.3 文本分类算法207
8.3 无监督算法208
8.3.1 聚类208
8.3.2 朴素文本分类212
8.4 监督算法212
8.4.1 决策树214
8.4.2 k近邻分类器218
8.4.3 Rocchio分类器219
8.4.4 概率朴素贝叶斯文档分类221
8.4.5 支持向量机分类器224
8.4.6 集成分类器231
8.4.7 关于监督算法的结束语234
8.5 特征选择或降维234
8.5.1 项-类别出现列联表235
8.5.2 索引项文档频率236
8.5.3 TF-IDF权重236
8.5.4 互信息236
8.5.5 信息增益237
8.5.6 卡方检验237
8.5.7 特征选择的作用238
8.6 评价指标238
8.6.1 列联表238
8.6.2 准确率和错误率239
8.6.3 精度和召回率239
8.6.4 F测度和F1240
8.6.5 交叉检验241
8.6.6 标准文档集241
8.7 类别组织——构建分类体系242
8.8 趋势和研究问题244
8.9 文献讨论244
第9章 索引和搜索247
9.1 介绍247
9.2 倒排索引249
9.2.1 基本概念249
9.2.2 完全倒排索引250
9.2.3 搜索252
9.2.4 排序256
9.2.5 构建257
9.2.6 压缩的倒排索引260
9.2.7 结构化查询261
9.3 签名文件262
9.4 后缀树和后缀数组264
9.4.1 结构:trie树和后缀树265
9.4.2 简单字符串搜索266
9.4.3 复杂模式的搜索267
9.4.4 构建268
9.4.5 压缩的后缀数组270
9.5 序列搜索273
9.5.1 简单字符串:Horspool274
9.5.2 复杂模式:自动机和位并行276
9.5.3 更快的位并行算法279
9.5.4 正则表达式281
9.5.5 多重模式282
9.5.6 近似搜索283
9.5.7 搜索压缩文本285
9.6 多维索引287
9.7 趋势和研究问题288
9.8 文献讨论289
第10章 并行与分布式信息检索293
10.1 介绍293
10.2 分布式信息检索系统的分类294
10.3 数据划分296
10.3.1 文档集划分297
10.3.2 文档集选择298
10.3.3 倒排索引划分299
10.3.4 划分其他索引302
10.4 并行信息检索303
10.4.1 介绍303
10.4.2 在MIMD架构上的并行信息检索305
10.4.3 在SIMD架构上的并行信息检索306
10.5 基于集群的信息检索310
10.6 分布式信息检索310
10.6.1 介绍310
10.6.2 索引313
10.6.3 查询处理315
10.6.4 Web问题320
10.7 联合搜索320
10.8 在对等网络中的检索322
10.9 趋势和研究问题325
10.10 文献讨论326
第11章 Web检索327
11.1 介绍327
11.2 一个有挑战性的问题328
11.3 Web329
11.3.1 特性329
11.3.2 Web图的结构331
11.3.3 对Web建模332
11.3.4 链接分析334
11.4 搜索引擎架构335
11.4.1 基本架构335
11.4.2 基于集群的架构336
11.4.3 缓存337
11.4.4 多级索引339
11.4.5 分布式架构340
11.5 搜索引擎排序342
11.5.1 排序信号342
11.5.2 基于链接的排序343
11.5.3 简单的排序函数345
11.5.4 排序学习345
11.5.5 学习排序函数346
11.5.6 质量评价347
11.5.7 Web垃圾348
11.6 管理Web数据348
11.6.1 为文档分配标识符348
11.6.2 元数据349
11.6.3 压缩Web图349
11.6.4 处理重复数据349
11.7 搜索引擎用户交互350
11.7.1 搜索矩形范式351
11.7.2 搜索引擎结果页面356
11.7.3 培养用户363
11.8 浏览364
11.8.1 扁平浏览364
11.8.2 结构导向的浏览和Web目录364
11.9 浏览之外366
11.9.1 超文本和Web366
11.9.2 搜索与浏览相结合366
11.9.3 Web查询语言367
11.9.4 动态搜索367
11.10 相关问题368
11.10.1 计算广告学368
11.10.2 Web挖掘370
11.10.3 元搜索371
11.11 趋势和研究问题372
11.11.1 静态文本数据之外372
11.11.2 目前的挑战373
11.12 文献讨论374
第12章 Web爬取376
12.1 介绍376
12.2 网络爬虫的应用377
12.2.1 通用Web搜索377
12.2.2 聚焦爬取378
12.2.3 Web刻画378
12.2.4 镜像378
12.2.5 网站分析379
12.3 爬虫的分类体系379
12.4 架构和实现380
12.4.1 爬虫架构380
12.4.2 实际问题382
12.4.3 并行爬取384
12.5 调度算法384
12.5.1 选择策略385
12.5.2 重访问策略387
12.5.3 友好策略391
12.5.4 组合策略393
12.6 评价393
12.6.1 评价网络使用393
12.6.2 评价长期调度394
12.7 趋势和研究问题395
12.7.1 爬取“暗网”395
12.7.2 在网站帮助下的爬取396
12.7.3 分布式爬取396
12.8 文献讨论396
第13章 结构化文本检索398
13.1 介绍398
13.2 结构化能力399
13.2.1 显式和隐式结构对比399
13.2.2 静态与动态结构对比399
13.2.3 单一层次结构与多层次结构对比400
13.3 早期文本检索模型400
13.3.1 基于非覆盖列表的模型401
13.3.2 基于相邻结点的模型401
13.3.3 结构化文本结果排序402
13.4 XML检索403
13.4.1 XML检索中的挑战403
13.4.2 索引策略404
13.4.3 排序策略405
13.4.4 去除重叠412
13.5 XML检索评价413
13.5.1 文档集414
13.5.2 主题414
13.5.3 检索任务415
13.5.4 相关性416
13.5.5 测度417
13.6 查询语言419
13.6.1 特性419
13.6.2 XML查询语言分类420
13.6.3 XML查询语言样例421
13.7 趋势和研究问题425
13.8 文献讨论427
第14章 多媒体信息检索429
14.1 介绍429
14.1.1 什么是多媒体429
14.1.2 多媒体检索429
14.1.3 文本检索与多媒体检索的对比430
14.2 挑战431
14.2.1 语义鸿沟431
14.2.2 特征歧义性432
14.2.3 机器生成的数据432
14.3 基于内容的图像检索433
14.3.1 基于颜色的检索433
14.3.2 纹理434
14.3.3 显著点436
14.4 声音和音乐检索437
14.4.1 指纹识别437
14.4.2 语音识别438
14.4.3 说话人识别440
14.4.4 语音文档检索440
14.4.5 音频基础知识440
14.5 检索和浏览视频443
14.5.1 视频摘要443
14.5.2 静态摘要444
14.5.3 图像拼接与跳跃剧照445
14.5.4 动态摘要446
14.5.5 交互式摘要447
14.5.6 视觉与听觉浏览对比448
14.5.7 摘要评价448
14.6 融合模型:合并所有信息449
14.6.1 人脸命名449
14.6.2 图像命名450
14.6.3 音频命名451
14.6.4 结合音频与视频的音-视频语音识别451
14.6.5 结合音频和视频的多媒体处理453
14.7 分割453
14.7.1 视频分割样例454
14.7.2 视频分割方案455
14.7.3 利用边缘的视频分割455
14.7.4 语音分割456
14.7.5 分割评价457
14.8 压缩和MPEG标准457
14.8.1 强度和采样458
14.8.2 颜色458
14.8.3 有损压缩459
14.8.4 无损压缩461
14.8.5 时间冗余461
14.8.6 运动预测461
14.8.7 MPEG标准462
14.9 趋势和研究问题465
14.10 文献讨论466
第15章 企业搜索469
15.1 介绍469
15.1.1 企业搜索的特点和应用469
15.1.2 企业搜索软件470
15.1.3 工作场所搜索471
15.2 企业搜索任务471
15.2.1 搜索支持任务的例子471
15.2.2 搜索类型473
15.2.3 研究企业搜索473
15.3 企业搜索系统的结构474
15.3.1 收集474
15.3.2 提取476
15.3.3 索引477
15.3.4 文本注释的索引477
15.3.5 查询处理478
15.3.6 搜索结果的展示479
15.3.7 安全模型480
15.3.8 联合/元搜索482
15.4 企业搜索评价484
15.4.1 企业搜索的公开测试集484
15.4.2 企业搜索内部评价485
15.4.3 企业搜索调试486
15.4.4 所能期待的是什么487
15.5 不满意的可能原因488
15.6 情境化和个性化490
15.6.1 情境化的控制和工具491
15.6.2 情境化:本地、企业或全球493
15.6.3 轮廓的隐私494
15.6.4 定义、建立和维护轮廓494
15.6.5 用户建模495
15.6.6 隐式评价496
15.6.7 信息过滤496
15.6.8 社会化推荐系统497
15.7 趋势和研究问题497
15.8 文献讨论497
第16章 图书馆系统499
16.1 图书馆的信息环境499
16.2 联机公共检索目录500
16.2.1 OPAC和书目记录501
16.2.2 来自ILS的信息检索503
16.2.3 混合图书馆的整合504
16.2.4 OPAC和最终用户505
16.2.5 ILS:供应商和产品506
16.3 信息检索系统与文档数据库507
16.3.1 书目和全文数据库508
16.3.2 数据库记录的内容508
16.3.3 联机产业:数据库供应商510
16.3.4 来自文档数据库的信息检索511
16.4 组织机构内部的信息检索514
16.5 趋势和研究问题515
16.6 文献讨论516
第17章 数字图书馆517
17.1 介绍517
17.2 定义数字图书馆517
17.3 通用架构518
17.4 基本概念519
17.4.1 数字对象和馆藏519
17.4.2 元数据和目录520
17.4.3 资源库/档案库522
17.4.4 服务525
17.5 社会经济问题527
17.5.1 社会问题527
17.5.2 经济问题527
17.6 软件系统528
17.6.1 Greenstone529
17.6.2 Eprints529
17.6.3 DSpace529
17.6.4 Fedora529
17.6.5 ODL530
17.6.6 5S套件530
17.7 数字图书馆案例研究531
17.7.1 联网学位论文数字图书馆531
17.7.2 国家科学数字图书馆532
17.7.3 ETANA-DL考古数字图书馆532
17.8 趋势和研究问题532
17.8.1 评价532
17.8.2 集成533
17.8.3 其他研究挑战533
17.9 文献讨论534
附录A 开源搜索引擎535
附录B 作者简介549
参考文献554
索引654
译者序
第2版前言
第1版前言
第2版致谢
第1版致谢
出版商致谢
第1章 引言1
1.1 信息检索1
1.1.1 信息检索的早期发展1
1.1.2 图书馆和数字图书馆中的信息检索2
1.1.3 舞台中央的信息检索2
1.2 信息检索问题3
1.2.1 用户的任务3
1.2.2 信息检索与数据检索4
1.3 信息检索系统4
1.3.1 信息检索系统的软件架构4
1.3.2 检索和排序过程5
1.4 Web6
1.4.1 Web简史7
1.4.2 电子出版时代7
1.4.3 Web如何改变搜索8
1.4.4 Web上的实际问题9
1.5 本书的组织结构9
1.5.1 本书的重点9
1.5.2 本书的内容10
1.6 本书的教学资源网站12
1.7 文献讨论12
第2章 用户搜索界面16
2.1 介绍16
2.2 人们如何搜索16
2.2.1 信息查找与探索式搜索16
2.2.2 信息搜寻的经典模型与动态模型17
2.2.3 导航与搜索18
2.2.4 对搜索过程的观察18
2.3 现今的搜索界面19
2.3.1 启动搜寻19
2.3.2 查询描述19
2.3.3 查询描述界面20
2.3.4 检索结果显示22
2.3.5 查询重构24
2.3.6 组织搜索结果26
2.4 搜索界面的可视化32
2.4.1 可视化布尔语法32
2.4.2 可视化查询结果中的查询项33
2.4.3 可视化词语和文档间的关系36
2.4.4 文本挖掘的可视化38
2.5 搜索界面的设计和评价40
2.6 趋势和研究问题42
2.7 文献讨论42
第3章 信息检索建模44
3.1 信息检索模型44
3.1.1 建模和排序44
3.1.2 信息检索模型描述44
3.1.3 信息检索模型的分类体系45
3.2 经典信息检索47
3.2.1 基本概念47
3.2.2 布尔模型49
3.2.3 项权重50
3.2.4 TF-IDF权重52
3.2.5 文档长度归一化56
3.2.6 向量模型57
3.2.7 概率模型59
3.2.8 经典模型之间的简单比较64
3.3 其他集合论模型64
3.3.1 基于集合的模型64
3.3.2 扩展布尔模型68
3.3.3 模糊集模型70
3.4 其他代数模型72
3.4.1 广义向量空间模型72
3.4.2 潜在语义索引模型74
3.4.3 神经网络模型75
3.5 其他概率模型76
3.5.1 BM25模型77
3.5.2 语言模型78
3.5.3 随机差异模型83
3.5.4 贝叶斯网模型85
3.6 其他模型90
3.6.1 超文本模型90
3.6.2 基于Web的模型91
3.6.3 结构化文本检索91
3.6.4 多媒体检索92
3.6.5 企业和垂直搜索92
3.7 趋势和研究问题92
3.8 文献讨论93
第4章 检索评价96
4.1 介绍96
4.2 Cranfield范式97
4.2.1 历史简述97
4.2.2 参考集98
4.3 检索指标98
4.3.1 精度和召回率98
4.3.2 单值总结:P@n,MAP,MRR,F102
4.3.3 面向用户的指标105
4.3.4 折扣累积增益106
4.3.5 二元偏好109
4.3.6 排序相关性测度111
4.4 参考文档集115
4.4.1 TREC参考集115
4.4.2 其他参考集121
4.4.3 其他小规模测试文档集121
4.5 基于用户的评价122
4.5.1 实验室中的人工实验122
4.5.2 并排面板122
4.5.3 A/B测试123
4.5.4 众包124
4.5.5 使用点击数据的评价125
4.6 实践说明126
4.7 趋势和研究问题127
4.8 文献讨论127
第5章 相关反馈与查询扩展129
5.1 介绍129
5.2 反馈方法的框架129
5.3 显式相关反馈131
5.3.1 向量模型的相关反馈:Rocchio方法131
5.3.2 概率模型的相关反馈133
5.3.3 相关反馈的评价134
5.4 基于点击的显式反馈134
5.4.1 眼动追踪和相关性评价134
5.4.2 用户行为135
5.4.3 点击作为用户偏好的指标136
5.5 通过局部分析的隐式反馈138
5.5.1 通过局部聚类的隐式反馈138
5.5.2 通过局部上下文分析的隐式反馈140
5.6 通过全局分析的隐式反馈141
5.6.1 基于相似度同义词典的查询扩展141
5.6.2 基于统计同义词典的查询扩展143
5.7 趋势和研究问题145
5.8 文献讨论145
第6章 文档:语言及属性147
6.1 介绍147
6.2 元数据148
6.3 文档格式149
6.3.1 文本149
6.3.2 多媒体149
6.3.3 图形和虚拟现实150
6.4 标记语言151
6.4.1 SGML151
6.4.2 HTML153
6.4.3 XML155
6.4.4 RDF157
6.4.5 HyTime158
6.5 文本属性159
6.5.1 信息论159
6.5.2 自然语言建模159
6.5.3 文本相似度162
6.6 文档预处理163
6.6.1 文本的词汇分析163
6.6.2 去除禁用词164
6.6.3 词干提取165
6.6.4 关键词选择166
6.6.5 同义词典166
6.7 组织文档168
6.7.1 分类体系法168
6.7.2 分众分类法169
6.8 文本压缩170
6.8.1 基本概念170
6.8.2 统计方法171
6.8.3 统计方法:建模171
6.8.4 统计方法:编码173
6.8.5 字典方法179
6.8.6 压缩预处理180
6.8.7 文本压缩技术的比较181
6.8.8 结构化文本压缩182
6.9 趋势和研究问题183
6.10 文献讨论185
第7章 查询:语言及属性187
7.1 查询语言187
7.1.1 基于关键词的查询188
7.1.2 非关键词查询190
7.1.3 结构化查询192
7.1.4 查询协议194
7.2 查询属性195
7.2.1 Web查询的特征195
7.2.2 用户搜索行为197
7.2.3 查询意图197
7.2.4 查询主题199
7.2.5 查询会话与任务200
7.2.6 查询难度200
7.3 趋势和研究问题203
7.4 文献讨论204
第8章 文本分类205
8.1 介绍205
8.2 文本分类的特性描述206
8.2.1 机器学习206
8.2.2 文本分类问题206
8.2.3 文本分类算法207
8.3 无监督算法208
8.3.1 聚类208
8.3.2 朴素文本分类212
8.4 监督算法212
8.4.1 决策树214
8.4.2 k近邻分类器218
8.4.3 Rocchio分类器219
8.4.4 概率朴素贝叶斯文档分类221
8.4.5 支持向量机分类器224
8.4.6 集成分类器231
8.4.7 关于监督算法的结束语234
8.5 特征选择或降维234
8.5.1 项-类别出现列联表235
8.5.2 索引项文档频率236
8.5.3 TF-IDF权重236
8.5.4 互信息236
8.5.5 信息增益237
8.5.6 卡方检验237
8.5.7 特征选择的作用238
8.6 评价指标238
8.6.1 列联表238
8.6.2 准确率和错误率239
8.6.3 精度和召回率239
8.6.4 F测度和F1240
8.6.5 交叉检验241
8.6.6 标准文档集241
8.7 类别组织——构建分类体系242
8.8 趋势和研究问题244
8.9 文献讨论244
第9章 索引和搜索247
9.1 介绍247
9.2 倒排索引249
9.2.1 基本概念249
9.2.2 完全倒排索引250
9.2.3 搜索252
9.2.4 排序256
9.2.5 构建257
9.2.6 压缩的倒排索引260
9.2.7 结构化查询261
9.3 签名文件262
9.4 后缀树和后缀数组264
9.4.1 结构:trie树和后缀树265
9.4.2 简单字符串搜索266
9.4.3 复杂模式的搜索267
9.4.4 构建268
9.4.5 压缩的后缀数组270
9.5 序列搜索273
9.5.1 简单字符串:Horspool274
9.5.2 复杂模式:自动机和位并行276
9.5.3 更快的位并行算法279
9.5.4 正则表达式281
9.5.5 多重模式282
9.5.6 近似搜索283
9.5.7 搜索压缩文本285
9.6 多维索引287
9.7 趋势和研究问题288
9.8 文献讨论289
第10章 并行与分布式信息检索293
10.1 介绍293
10.2 分布式信息检索系统的分类294
10.3 数据划分296
10.3.1 文档集划分297
10.3.2 文档集选择298
10.3.3 倒排索引划分299
10.3.4 划分其他索引302
10.4 并行信息检索303
10.4.1 介绍303
10.4.2 在MIMD架构上的并行信息检索305
10.4.3 在SIMD架构上的并行信息检索306
10.5 基于集群的信息检索310
10.6 分布式信息检索310
10.6.1 介绍310
10.6.2 索引313
10.6.3 查询处理315
10.6.4 Web问题320
10.7 联合搜索320
10.8 在对等网络中的检索322
10.9 趋势和研究问题325
10.10 文献讨论326
第11章 Web检索327
11.1 介绍327
11.2 一个有挑战性的问题328
11.3 Web329
11.3.1 特性329
11.3.2 Web图的结构331
11.3.3 对Web建模332
11.3.4 链接分析334
11.4 搜索引擎架构335
11.4.1 基本架构335
11.4.2 基于集群的架构336
11.4.3 缓存337
11.4.4 多级索引339
11.4.5 分布式架构340
11.5 搜索引擎排序342
11.5.1 排序信号342
11.5.2 基于链接的排序343
11.5.3 简单的排序函数345
11.5.4 排序学习345
11.5.5 学习排序函数346
11.5.6 质量评价347
11.5.7 Web垃圾348
11.6 管理Web数据348
11.6.1 为文档分配标识符348
11.6.2 元数据349
11.6.3 压缩Web图349
11.6.4 处理重复数据349
11.7 搜索引擎用户交互350
11.7.1 搜索矩形范式351
11.7.2 搜索引擎结果页面356
11.7.3 培养用户363
11.8 浏览364
11.8.1 扁平浏览364
11.8.2 结构导向的浏览和Web目录364
11.9 浏览之外366
11.9.1 超文本和Web366
11.9.2 搜索与浏览相结合366
11.9.3 Web查询语言367
11.9.4 动态搜索367
11.10 相关问题368
11.10.1 计算广告学368
11.10.2 Web挖掘370
11.10.3 元搜索371
11.11 趋势和研究问题372
11.11.1 静态文本数据之外372
11.11.2 目前的挑战373
11.12 文献讨论374
第12章 Web爬取376
12.1 介绍376
12.2 网络爬虫的应用377
12.2.1 通用Web搜索377
12.2.2 聚焦爬取378
12.2.3 Web刻画378
12.2.4 镜像378
12.2.5 网站分析379
12.3 爬虫的分类体系379
12.4 架构和实现380
12.4.1 爬虫架构380
12.4.2 实际问题382
12.4.3 并行爬取384
12.5 调度算法384
12.5.1 选择策略385
12.5.2 重访问策略387
12.5.3 友好策略391
12.5.4 组合策略393
12.6 评价393
12.6.1 评价网络使用393
12.6.2 评价长期调度394
12.7 趋势和研究问题395
12.7.1 爬取“暗网”395
12.7.2 在网站帮助下的爬取396
12.7.3 分布式爬取396
12.8 文献讨论396
第13章 结构化文本检索398
13.1 介绍398
13.2 结构化能力399
13.2.1 显式和隐式结构对比399
13.2.2 静态与动态结构对比399
13.2.3 单一层次结构与多层次结构对比400
13.3 早期文本检索模型400
13.3.1 基于非覆盖列表的模型401
13.3.2 基于相邻结点的模型401
13.3.3 结构化文本结果排序402
13.4 XML检索403
13.4.1 XML检索中的挑战403
13.4.2 索引策略404
13.4.3 排序策略405
13.4.4 去除重叠412
13.5 XML检索评价413
13.5.1 文档集414
13.5.2 主题414
13.5.3 检索任务415
13.5.4 相关性416
13.5.5 测度417
13.6 查询语言419
13.6.1 特性419
13.6.2 XML查询语言分类420
13.6.3 XML查询语言样例421
13.7 趋势和研究问题425
13.8 文献讨论427
第14章 多媒体信息检索429
14.1 介绍429
14.1.1 什么是多媒体429
14.1.2 多媒体检索429
14.1.3 文本检索与多媒体检索的对比430
14.2 挑战431
14.2.1 语义鸿沟431
14.2.2 特征歧义性432
14.2.3 机器生成的数据432
14.3 基于内容的图像检索433
14.3.1 基于颜色的检索433
14.3.2 纹理434
14.3.3 显著点436
14.4 声音和音乐检索437
14.4.1 指纹识别437
14.4.2 语音识别438
14.4.3 说话人识别440
14.4.4 语音文档检索440
14.4.5 音频基础知识440
14.5 检索和浏览视频443
14.5.1 视频摘要443
14.5.2 静态摘要444
14.5.3 图像拼接与跳跃剧照445
14.5.4 动态摘要446
14.5.5 交互式摘要447
14.5.6 视觉与听觉浏览对比448
14.5.7 摘要评价448
14.6 融合模型:合并所有信息449
14.6.1 人脸命名449
14.6.2 图像命名450
14.6.3 音频命名451
14.6.4 结合音频与视频的音-视频语音识别451
14.6.5 结合音频和视频的多媒体处理453
14.7 分割453
14.7.1 视频分割样例454
14.7.2 视频分割方案455
14.7.3 利用边缘的视频分割455
14.7.4 语音分割456
14.7.5 分割评价457
14.8 压缩和MPEG标准457
14.8.1 强度和采样458
14.8.2 颜色458
14.8.3 有损压缩459
14.8.4 无损压缩461
14.8.5 时间冗余461
14.8.6 运动预测461
14.8.7 MPEG标准462
14.9 趋势和研究问题465
14.10 文献讨论466
第15章 企业搜索469
15.1 介绍469
15.1.1 企业搜索的特点和应用469
15.1.2 企业搜索软件470
15.1.3 工作场所搜索471
15.2 企业搜索任务471
15.2.1 搜索支持任务的例子471
15.2.2 搜索类型473
15.2.3 研究企业搜索473
15.3 企业搜索系统的结构474
15.3.1 收集474
15.3.2 提取476
15.3.3 索引477
15.3.4 文本注释的索引477
15.3.5 查询处理478
15.3.6 搜索结果的展示479
15.3.7 安全模型480
15.3.8 联合/元搜索482
15.4 企业搜索评价484
15.4.1 企业搜索的公开测试集484
15.4.2 企业搜索内部评价485
15.4.3 企业搜索调试486
15.4.4 所能期待的是什么487
15.5 不满意的可能原因488
15.6 情境化和个性化490
15.6.1 情境化的控制和工具491
15.6.2 情境化:本地、企业或全球493
15.6.3 轮廓的隐私494
15.6.4 定义、建立和维护轮廓494
15.6.5 用户建模495
15.6.6 隐式评价496
15.6.7 信息过滤496
15.6.8 社会化推荐系统497
15.7 趋势和研究问题497
15.8 文献讨论497
第16章 图书馆系统499
16.1 图书馆的信息环境499
16.2 联机公共检索目录500
16.2.1 OPAC和书目记录501
16.2.2 来自ILS的信息检索503
16.2.3 混合图书馆的整合504
16.2.4 OPAC和最终用户505
16.2.5 ILS:供应商和产品506
16.3 信息检索系统与文档数据库507
16.3.1 书目和全文数据库508
16.3.2 数据库记录的内容508
16.3.3 联机产业:数据库供应商510
16.3.4 来自文档数据库的信息检索511
16.4 组织机构内部的信息检索514
16.5 趋势和研究问题515
16.6 文献讨论516
第17章 数字图书馆517
17.1 介绍517
17.2 定义数字图书馆517
17.3 通用架构518
17.4 基本概念519
17.4.1 数字对象和馆藏519
17.4.2 元数据和目录520
17.4.3 资源库/档案库522
17.4.4 服务525
17.5 社会经济问题527
17.5.1 社会问题527
17.5.2 经济问题527
17.6 软件系统528
17.6.1 Greenstone529
17.6.2 Eprints529
17.6.3 DSpace529
17.6.4 Fedora529
17.6.5 ODL530
17.6.6 5S套件530
17.7 数字图书馆案例研究531
17.7.1 联网学位论文数字图书馆531
17.7.2 国家科学数字图书馆532
17.7.3 ETANA-DL考古数字图书馆532
17.8 趋势和研究问题532
17.8.1 评价532
17.8.2 集成533
17.8.3 其他研究挑战533
17.9 文献讨论534
附录A 开源搜索引擎535
附录B 作者简介549
参考文献554
索引654