注重体验与质量的电子书资源下载网站
分类于: 编程语言 计算机基础 互联网
简介
文本挖掘:基于R语言的整洁工具 豆 0.0分
资源最后更新于 2020-03-29 04:25:57
作者:〔美〕茱莉亚·斯拉格(Julia Silge)〔美〕戴维·罗宾逊(David Robinson)
译者:刘波唐亮贵罗棻
出版社:出版社机械工业出版社
出版日期:2018-01
ISBN:9787111588559
文件格式: pdf
标签: 计算机 编程 程序设计 IT 文本 R语言 O’Reilly精品图书系列
简介· · · · · ·
文本挖掘是一种从文本数据中抽取有价值的信息和知识的计算机处理技术,也是自然语言处理的热门话题。本书主要介绍整洁数据的文本挖掘与分析。整洁数据具有简单且新颖的结构,对其进行分析会更有效、更容易。本书的所有代码都是基于R语言来编写的,采用tidytext软件包以及其他整洁工具来挖掘文件中的有用信息,并用图形展示出来,这对理解文本内容非常有帮助。本书提供了非常有用的真实案例,这会为对文本分析工作感兴趣的人提供有价值的信息。(美)茱莉亚·斯拉格(JuliaSilge),(美)戴维·罗宾逊(DavidRobinson)著。刘波,罗棻,唐亮贵译。
目录
O’Reilly Media,Inc.介绍
译者序
前言
第1章 整洁文本格式
比较整洁文本结构与其他数据结构
unnest_tokens函数
整理Jane Austen的作品
gutenbergr包
词频
总结
第2章 基于整洁数据的情感分析
情感数据集
内连接的情感分析
比较三个情感词典
最常见的正面单词和负面单词
Wordclouds模块
除单词外的其他文本单元
总结
第3章 分析词和文件频率:tf-idf
Jane Austen小说中的词项频率
Zipf定律
bind_tf_idf函数
物理学语料库
总结
第4章 词之间的关系:n-gram及相关性
n-gram词条化
用widyr包对单词对计数并计算相关性
总结
第5章 非整洁格式转换
使文档–词项矩阵整洁
将整洁文本数据转换为矩阵
总结
第6章 主题建模
LDA
示例:博大的图书馆馆藏
LDA方法的替代实现
总结
第7章 案例研究:Twitter归档文件比较
单词使用情况的比较
单词使用情况的变化
收藏和转发
总结
第8章 案例研究:NASA元数据挖掘
NASA如何组织数据
共现单词与相关单词
计算描述字段的tf-idf
总结
第9章 案例研究:分析Usenet文本
预处理
新闻组中的单词
情感分析
总结
参考文献
作者简介
封面简介