logo
分类于: 编程语言 计算机基础 互联网

简介

文本挖掘:基于R语言的整洁工具

文本挖掘:基于R语言的整洁工具 0.0分

资源最后更新于 2020-03-29 04:25:57

作者:〔美〕茱莉亚·斯拉格(Julia Silge)〔美〕戴维·罗宾逊(David Robinson)

译者:刘波唐亮贵罗棻

出版社:出版社机械工业出版社

出版日期:2018-01

ISBN:9787111588559

文件格式: pdf

标签: 计算机 编程 程序设计 IT 文本 R语言 O’Reilly精品图书系列

简介· · · · · ·

文本挖掘是一种从文本数据中抽取有价值的信息和知识的计算机处理技术,也是自然语言处理的热门话题。本书主要介绍整洁数据的文本挖掘与分析。整洁数据具有简单且新颖的结构,对其进行分析会更有效、更容易。本书的所有代码都是基于R语言来编写的,采用tidytext软件包以及其他整洁工具来挖掘文件中的有用信息,并用图形展示出来,这对理解文本内容非常有帮助。本书提供了非常有用的真实案例,这会为对文本分析工作感兴趣的人提供有价值的信息。(美)茱莉亚·斯拉格(JuliaSilge),(美)戴维·罗宾逊(DavidRobinson)著。刘波,罗棻,唐亮贵译。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

  1. O’Reilly Media,Inc.介绍
  2. 译者序
  3. 前言
  4. 第1章 整洁文本格式
  5. 比较整洁文本结构与其他数据结构
  6. unnest_tokens函数
  7. 整理Jane Austen的作品
  8. gutenbergr包
  9. 词频
  10. 总结
  11. 第2章 基于整洁数据的情感分析
  12. 情感数据集
  13. 内连接的情感分析
  14. 比较三个情感词典
  15. 最常见的正面单词和负面单词
  16. Wordclouds模块
  17. 除单词外的其他文本单元
  18. 总结
  19. 第3章 分析词和文件频率:tf-idf
  20. Jane Austen小说中的词项频率
  21. Zipf定律
  22. bind_tf_idf函数
  23. 物理学语料库
  24. 总结
  25. 第4章 词之间的关系:n-gram及相关性
  26. n-gram词条化
  27. 用widyr包对单词对计数并计算相关性
  28. 总结
  29. 第5章 非整洁格式转换
  30. 使文档–词项矩阵整洁
  31. 将整洁文本数据转换为矩阵
  32. 总结
  33. 第6章 主题建模
  34. LDA
  35. 示例:博大的图书馆馆藏
  36. LDA方法的替代实现
  37. 总结
  38. 第7章 案例研究:Twitter归档文件比较
  39. 单词使用情况的比较
  40. 单词使用情况的变化
  41. 收藏和转发
  42. 总结
  43. 第8章 案例研究:NASA元数据挖掘
  44. NASA如何组织数据
  45. 共现单词与相关单词
  46. 计算描述字段的tf-idf
  47. 总结
  48. 第9章 案例研究:分析Usenet文本
  49. 预处理
  50. 新闻组中的单词
  51. 情感分析
  52. 总结
  53. 参考文献
  54. 作者简介
  55. 封面简介