注重体验与质量的电子书资源下载网站
分类于: 设计 职场办公
简介
面向机器学习的自然语言标注: 创建你自己的面向机器学习的自然语言训练语料库 豆 6.5分
资源最后更新于 2020-08-23 08:22:30
作者:[美] 普斯特若夫斯基(James Pustejovsky),
译者:邱立坤
出版社:机械工业出版社
出版日期:2017-01
ISBN:9787111555155
文件格式: pdf
标签: 自然语言处理 机器学习 nlp 计算机 人工智能 NLP Linguistics 计算机科学
简介· · · · · ·
自然语言理解是人工智能的一个重要分支,主要研究如何利用计算机来理解和生成自然语言。本书重点介绍了自然语言理解所涉及的各个方面,包括语法分析、语义分析、概念分析、语料库语言学、词汇语义驱动、中间语言、WordNet、词汇树邻接文法、链接文法、基于语段的机器翻译方法、内识别与文本过滤、机器翻译的评测等,既有对基础知识的介绍,又有对新研究进展的综述,同时还结合了作者(JamesPustejovsky,生成词库理论的创始人)多年的研究成果。本书内容全面、详略得当,结合实例讲解,使读者更易理解。
目录
前言1
第1章基础知识7
1.1语言标注的重要性7
1.1.1语言学描述的层次8
1.1.2什么是自然语言处理9
1.2语料库语言学简史10
1.2.1什么是语料库13
1.2.2语料库的早期应用15
1.2.3当今的语料库17
1.2.4标注类型18
1.3语言数据和机器学习24
1.3.1分类25
1.3.2聚类25
1.3.3结构化模式归纳26
1.4标注开发循环26
1.4.1现象建模27
1.4.2按照规格说明进行标注30
1.4.3在语料库上训练和测试算法31
1.4.4对结果进行评价32
1.4.5修改模型和算法33
总结34
第2章确定目标与选择数据36
2.1定义目标36
2.1.1目标陈述37
2.1.2提炼目标:信息量与正确性38
2.2背景研究43
2.2.1语言资源44
2.2.2机构与会议44
2.2.3自然语言处理竞赛45
2.3整合数据集46
2.3.1理想的语料库:代表性与平衡性47
2.3.2从因特网上收集数据47
2.3.3从人群中获取数据48
2.4语料库的规模49
2.4.1现有语料库50
2.4.2语料库内部的分布51
总结53
第3章语料库分析54
3.1语料库分析中的基本概率知识55
3.1.1联合概率分布56
3.1.2贝叶斯定理58
3.2计算出现次数58
3.2.1齐普夫定律(Zip'sLaw)61
3.2.2n元语法62
3.3语言模型63
总结65
第4章建立模型与规格说明66
4.1模型和规格说明示例66
4.1.1电影题材分类69
4.1.2添加命名实体70
4.1.3语义角色71
4.2采用(或不采用)现有模型73
4.2.1创建模型和规格说明:一般性与特殊性74
4.2.2使用现有模型和规格说明76
4.2.3使用没有规格说明的模型78
4.3各种标准78
4.3.1ISO标准78
4.3.2社区驱动型标准81
4.3.3影响标注的其他标准81
总结82
第5章选择并应用标注标准84
5.1元数据标注:文档分类85
5.1.1单标签标注:电影评论85
5.1.2多标签标注:电影题材87
5.2文本范围标注:命名实体90
5.2.1内嵌式标注90
5.2.2基于词例的分离式标注92
5.2.3基于字符位置的分离式标注95
5.3链接范围标注:语义角色96
5.4ISO标准和你97
总结97
第6章标注与审核99
6.1标注项目的基本结构99
6.2标注规格说明与标注指南101
6.3准备修改102
6.4准备用于标注的数据103
6.4.1元数据103
6.4.2数据预处理104
6.4.3为标注工作分割文件104
6.5撰写标注指南105
6.5.1例1:单标签标注——电影评论106
6.5.2例2:多标签标注——电影题材108
6.5.3例3:范围标注——命名实体111
6.5.4例4:链接范围标注——语义角色112
6.6标注人员114
6.7选择标注环境116
6.8评价标注结果117
6.8.1Cohen的Kappa(κ)算法118
6.8.2Fleiss的Kappa(κ)算法119
6.8.3解释Kappa系数122
6.8.4在其他上下文中计算κ值123
6.9创建黄金标准(审核)125
总结126
第7章训练:机器学习129
7.1何谓学习130
7.2定义学习任务132
7.3分类算法133
7.3.1决策树学习135
7.3.2朴素贝叶斯学习140
7.3.3最大熵分类器145
7.3.4其他需要了解的分类器147
7.4序列归纳算法148
7.5聚类和无监督学习150
7.6半监督学习150
7.7匹配标注与算法153
总结154
第8章测试与评价156
8.1测试算法157
8.2评价算法157
8.2.1混淆矩阵157
8.2.2计算评价得分159
8.2.3解释评价得分163
8.3可能影响算法评价的问题164
8.3.1数据集太小164
8.3.2算法过于适合开发数据166
8.3.3标注中的信息过多166
8.4最后测试得分167
总结167
……
第9章修改与报告169
第10章标注:TimeML179
第11章自动标注:生成TimeML199
第12章后记:标注的未来发展趋势217
附录A可利用的语料库与标注规格说明列表227
附录B软件资源列表249
附录CMAE用户指南269
附录DMAI用户指南276
附录E参考文献282
第1章基础知识7
1.1语言标注的重要性7
1.1.1语言学描述的层次8
1.1.2什么是自然语言处理9
1.2语料库语言学简史10
1.2.1什么是语料库13
1.2.2语料库的早期应用15
1.2.3当今的语料库17
1.2.4标注类型18
1.3语言数据和机器学习24
1.3.1分类25
1.3.2聚类25
1.3.3结构化模式归纳26
1.4标注开发循环26
1.4.1现象建模27
1.4.2按照规格说明进行标注30
1.4.3在语料库上训练和测试算法31
1.4.4对结果进行评价32
1.4.5修改模型和算法33
总结34
第2章确定目标与选择数据36
2.1定义目标36
2.1.1目标陈述37
2.1.2提炼目标:信息量与正确性38
2.2背景研究43
2.2.1语言资源44
2.2.2机构与会议44
2.2.3自然语言处理竞赛45
2.3整合数据集46
2.3.1理想的语料库:代表性与平衡性47
2.3.2从因特网上收集数据47
2.3.3从人群中获取数据48
2.4语料库的规模49
2.4.1现有语料库50
2.4.2语料库内部的分布51
总结53
第3章语料库分析54
3.1语料库分析中的基本概率知识55
3.1.1联合概率分布56
3.1.2贝叶斯定理58
3.2计算出现次数58
3.2.1齐普夫定律(Zip'sLaw)61
3.2.2n元语法62
3.3语言模型63
总结65
第4章建立模型与规格说明66
4.1模型和规格说明示例66
4.1.1电影题材分类69
4.1.2添加命名实体70
4.1.3语义角色71
4.2采用(或不采用)现有模型73
4.2.1创建模型和规格说明:一般性与特殊性74
4.2.2使用现有模型和规格说明76
4.2.3使用没有规格说明的模型78
4.3各种标准78
4.3.1ISO标准78
4.3.2社区驱动型标准81
4.3.3影响标注的其他标准81
总结82
第5章选择并应用标注标准84
5.1元数据标注:文档分类85
5.1.1单标签标注:电影评论85
5.1.2多标签标注:电影题材87
5.2文本范围标注:命名实体90
5.2.1内嵌式标注90
5.2.2基于词例的分离式标注92
5.2.3基于字符位置的分离式标注95
5.3链接范围标注:语义角色96
5.4ISO标准和你97
总结97
第6章标注与审核99
6.1标注项目的基本结构99
6.2标注规格说明与标注指南101
6.3准备修改102
6.4准备用于标注的数据103
6.4.1元数据103
6.4.2数据预处理104
6.4.3为标注工作分割文件104
6.5撰写标注指南105
6.5.1例1:单标签标注——电影评论106
6.5.2例2:多标签标注——电影题材108
6.5.3例3:范围标注——命名实体111
6.5.4例4:链接范围标注——语义角色112
6.6标注人员114
6.7选择标注环境116
6.8评价标注结果117
6.8.1Cohen的Kappa(κ)算法118
6.8.2Fleiss的Kappa(κ)算法119
6.8.3解释Kappa系数122
6.8.4在其他上下文中计算κ值123
6.9创建黄金标准(审核)125
总结126
第7章训练:机器学习129
7.1何谓学习130
7.2定义学习任务132
7.3分类算法133
7.3.1决策树学习135
7.3.2朴素贝叶斯学习140
7.3.3最大熵分类器145
7.3.4其他需要了解的分类器147
7.4序列归纳算法148
7.5聚类和无监督学习150
7.6半监督学习150
7.7匹配标注与算法153
总结154
第8章测试与评价156
8.1测试算法157
8.2评价算法157
8.2.1混淆矩阵157
8.2.2计算评价得分159
8.2.3解释评价得分163
8.3可能影响算法评价的问题164
8.3.1数据集太小164
8.3.2算法过于适合开发数据166
8.3.3标注中的信息过多166
8.4最后测试得分167
总结167
……
第9章修改与报告169
第10章标注:TimeML179
第11章自动标注:生成TimeML199
第12章后记:标注的未来发展趋势217
附录A可利用的语料库与标注规格说明列表227
附录B软件资源列表249
附录CMAE用户指南269
附录DMAI用户指南276
附录E参考文献282