logo
分类于: 计算机基础 互联网 云计算&大数据 人工智能

简介

Python自然语言处理实战:核心技术与算法: Natural Language Processing Core Technology and Algorithm with Python

Python自然语言处理实战:核心技术与算法: Natural Language Processing Core Technology and Algorithm with Python 6.3分

资源最后更新于 2020-03-29 04:59:33

作者:涂铭刘祥刘树春

出版社:出版社机械工业出版社

出版日期:2018-05

ISBN:9787111597674

文件格式: pdf

标签: 互联网 人工智能 python 大数据 自然语言处理 智能系统与技术丛书

简介· · · · · ·

自然语言处理是一门融语言学、计算机科学、数学于一体的学科,比较复杂,学习门槛高,但本书巧妙地避开了晦涩难懂的数学公式和证明,即便没有数学基础,也能零基础入门。本书专注于中文的自然语言处理,以Python及其相关框架为工具,以实战为导向,详细讲解了自然语言处理的各种核心技术、方法论和经典算法。三位作者在人工智能、大数据和算法领域有丰富的积累和经验,是阿里巴巴、前明略数据和七牛云的资深专家。同时,本书也得到了阿里巴巴达摩院高级算法专家、七牛云AI实验室Leader等专家的高度评价和鼎力推荐。全书一共11章,在逻辑上分为2个部分:第一部分(第1、2、11章)主要介绍了自然语言处理所需要了解的基础知识、前置技术、Python科学包、正则表达式以及Solr检索等。第二部分(第5-10章)第3-5章讲解了词法分析相关的技术,包括中文分词技术、词性标注与命名实体识别、关键词提取算法等。第6章讲解了句法分析技术,该部分目前理论研究较多,工程实践中使用门槛相对较高,且效果多是依赖结合业务知识进行规则扩展,因此本书未做深入探讨。第7章讲解了常用的向量化方法,这些方法常用于各种NLP任务的输入。第8章讲解了情感分析相关的概念、场景以及一般做情感分析的流程,情感分析在很多行业都有应用。第9章介绍了机器学习的重要概念,同时重点突出NLP常用的分类算法、聚类算法,还介绍了几个案例。第10章节介绍了NLP中常用的一些深度学习算法,这些方法比较复杂,但是非常实用,需要读者耐心学习。涂铭:阿里巴巴数据架构师,对大数据、自然语言处理、Python、Java相关技术有深入的研究,积累了丰富的实践经验。曾就职于北京明略数据,是大数据方面的高级咨询顾问。在工业领域参与了设备故障诊断项目,在零售行业参与了精准营销项目。在自然语言处理方面,担任导购机器人项目的架构师,主导开发机器人的语义理解、短文本相似度匹配、上下文理解,以及通过自然语言检索产品库,在项目中构建了NoSQL+文本检索等大数据架构,也同时负责问答对的整理和商品属性的提取,带领NLP团队构建语义解析层。刘祥:百炼智能自然语言处理专家,主要研究知识图谱、NLG等前沿技术,参与机器自动写作产品的研发与设计。曾在明略数据担当数据技术合伙人兼数据科学家,负责工业、金融等业务领域的数据挖掘工作,在这些领域构建了诸如故障诊断、关联账户分析、新闻推荐、商品推荐等模型。酷爱新技术,活跃于开源社区,是Spark MLlib和Zeppelin的Contributor。刘树春:七牛云高级算法专家,七牛AI实验室NLP&OCR方向负责人,主要负责七牛NLP以及OCR相关项目的研究与落地。在七牛人工智能实验室期间,参与大量NLP相关项目,例如知识图谱、问答系统、文本摘要、语音相关系统等;同时重点关注NLP与CV的交叉研究领域,主要有视觉问答(VQA),图像标注(Image Caption)等前沿问题。曾在Intel DCSG数据与云计算部门从事机器学习与云平台的融合开发,项目获得IDF大奖。硕士就读于华东师范大学机器学习实验室,在校期间主攻机器学习,机器视觉,图像处理,并在相关国际会议发表多篇SCI/EI论文。
直接下载

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. 序一
  2. 序二
  3. 前言
  4. 第1章 NLP基础
  5. 1.1 什么是NLP
  6. 1.2 NLP的发展历程
  7. 1.3 NLP相关知识的构成
  8. 1.4 语料库
  9. 1.5 探讨NLP的几个层面
  10. 1.6 NLP与人工智能
  11. 1.7 本章小结
  12. 第2章 NLP前置技术解析
  13. 2.1 搭建Python开发环境
  14. 2.2 正则表达式在NLP的基本应用
  15. 2.3 Numpy使用详解
  16. 2.4 本章小结
  17. 第3章 中文分词技术
  18. 3.1 中文分词简介
  19. 3.2 规则分词
  20. 3.3 统计分词
  21. 3.4 混合分词
  22. 3.5 中文分词工具——Jieba
  23. 3.6 本章小结
  24. 第4章 词性标注与命名实体识别
  25. 4.1 词性标注
  26. 4.2 命名实体识别
  27. 4.3 总结
  28. 第5章 关键词提取算法
  29. 5.1 关键词提取技术概述
  30. 5.2 关键词提取算法TF/IDF算法
  31. 5.3 TextRank算法
  32. 5.4 LSA/LSI/LDA算法
  33. 5.5 实战提取文本关键词
  34. 5.6 本章小结
  35. 第6章 句法分析
  36. 6.1 句法分析概述
  37. 6.2 句法分析的数据集与评测方法
  38. 6.3 句法分析的常用方法
  39. 6.4 使用Stanford Parser的PCFG算法进行句法分析
  40. 6.5 本章小结
  41. 第7章 文本向量化
  42. 7.1 文本向量化概述
  43. 7.2 向量化算法word2vec
  44. 7.3 向量化算法doc2vec/str2vec
  45. 7.4 案例:将网页文本向量化
  46. 7.5 本章小结
  47. 第8章 情感分析技术
  48. 8.1 情感分析的应用
  49. 8.2 情感分析的基本方法
  50. 8.3 实战电影评论情感分析
  51. 8.4 本章小结
  52. 第9章 NLP中用到的机器学习算法
  53. 9.1 简介
  54. 9.2 几种常用的机器学习方法
  55. 9.3 分类器方法
  56. 9.4 无监督学习的文本聚类
  57. 9.5 文本分类实战:中文垃圾邮件分类
  58. 9.6 文本聚类实战:用K-means对豆瓣读书数据聚类
  59. 9.7 本章小结
  60. 第10章 基于深度学习的NLP算法
  61. 10.1 深度学习概述
  62. 10.2 神经网络模型
  63. 10.3 多输出层模型
  64. 10.4 反向传播算法
  65. 10.5 最优化算法
  66. 10.6 丢弃法
  67. 10.7 激活函数
  68. 10.8 实现BP算法
  69. 10.9 词嵌入算法
  70. 10.10 训练词向量实践
  71. 10.11 朴素Vanilla-RNN
  72. 10.12 LSTM网络
  73. 10.13 Attention机制
  74. 10.14 Seq2Seq模型
  75. 10.15 图说模型
  76. 10.16 深度学习平台
  77. 10.17 实战Seq2Seq问答机器人
  78. 10.18 本章小结
  79. 第11章 Solr搜索引擎
  80. 11.1 全文检索的原理
  81. 11.2 Solr简介与部署
  82. 11.3 Solr后台管理描述
  83. 11.4 配置schema
  84. 11.5 Solr管理索引库
  85. 11.6 本章小结