logo
分类于: 互联网 设计

简介

文本挖掘: 基于R语言的整洁工具

文本挖掘: 基于R语言的整洁工具 0.0分

资源最后更新于 2020-11-20 04:35:31

作者:[美] 茱莉亚·斯拉格

译者:刘波

出版社:机械工业出版社

出版日期:2018-01

ISBN:9787111588559

文件格式: pdf

标签: R 数据挖掘 文本挖掘

简介· · · · · ·

文本挖掘是一种从文本数据中抽取有价值的信息和知识的计算机处理技术,也是自然语言处理的热门话题。本书主要介绍整洁数据的文本挖掘与分析。整洁数据具有简单且新颖的结构,对其进行分析会更有效、更容易。本书的所有代码都是基于R语言来编写的,采用tidytext软件包以及其他整洁工具来挖掘文件中的有用信息,并用图形展示出来,这对理解文本内容非常有帮助。本书提供了非常有用的真实案例,这会为对文本分析工作感兴趣的人提供有价值的信息。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦

目录

前言1
D1章 整洁文本格式7
比较整洁文本结构与其他数据结构8
unnest_tokens函数8
整理Jane Austen的作品10
gutenbergr包13
词频13
总结17
D2章 基于整洁数据的情感分析18
情感数据集18
内连接的情感分析21
比较三个情感词典24
Z常见的正面单词和负面单词26
Wordclouds模块 28
除单词外的其他文本单元30
总结32
D3章 分析词和文件频率:tf-idf33
Jane Austen小说中的词项频率34
Zipf定律35
bind_tf_idf函数38
物理学语料库41
总结45
D4章 词之间的关系:n-gram及相关性46
n-gram词条化46
用widyr包对单词对计数并计算相关性60
总结66
D5章 非整洁格式转换67
使文档–词项矩阵整洁67
将整洁文本数据转换为矩阵74
总结84
D6章 主题建模85
LDA 86
示例:博大的图书馆馆藏91
LDA方法的替代实现 101
总结102
D7章 案例研究:Twitter归档文件比较103
单词使用情况的比较107
单词使用情况的变化109
收藏和转发113
总结 117
D8章 案例研究:NASA元数据挖掘118
NASA如何组织数据118
共现单词与相关单词123
计算描述字段的tf-idf129
总结142
D9章 案例研究:分析Usenet文本143
预处理143
新闻组中的单词146
情感分析151
总结159
参考文献160