注重体验与质量的电子书资源下载网站
分类于: 编程语言 计算机基础 云计算&大数据
简介
R数据科学实战: 工具详解与案例分析 豆 0.0分
资源最后更新于 2020-03-29 03:06:26
作者:刘健邬书豪
出版社:出版社机械工业出版社
出版日期:2019-07
ISBN:9787111629948
文件格式: pdf
标签: 计算机 大数据 数据库 数据科学 数据科学与工程技术丛书
简介· · · · · ·
这是一部能指导零基础的读者快速掌握R语言并利用R语言进入数据科学领域的著作。两位作者在R语言和数据科学领域有丰富的实践经验,首先是非常有针对性地讲解了利用R语言进行数据处理需要掌握和使用的6大类17种工具,然后是结合这些工具的使用给出了5个典型的综合性案例,帮助读者迅速将理论与实践融会贯通。全书一共11章,逻辑上分为两大部分:第一部分R语言工具箱(第1—6章)首先从数据导入、数据清洗、数据计算、循环和迭代等几个方面详细讲解了R语言中相关的各种常用的工具,然后深入地讲解了R语言中的“超级瑞士军刀”data.table包。掌握这部分内容,能满足R语言数据处理中的基本需求。第二部分数据科学实战案例(第7—11章)第7章首先对数据科学从业者的现状和未来应该掌握的技术和工具进行了介绍;第8—11章通过4个综合性的案例讲解了使用R语言进行数据处理和分析的一整套流程和方法,与第一部分的内容融会贯通。刘健,资深R语言技术专家,数据科学工程师。在新西兰皇家植物与食品研究院工作,参与一项国际和两项国家级研究项目,使用R语言开发完成气象数据自动提取和模型文件自动化工具。由此参与编写《LandscapeModelling and Decision Support》(在审)一书;独立开发完成R语言程序包一个。该程序包主要针对模型软件APSIMX的输出数据进行整合及可视化;气象数据自动化报告系统。使用R语言对新西兰不同地区的气象数据进行自动获取、归集和可视化报告。科研上,作为第一作者发表期刊一篇,第一作者撰写科研报告两篇;作为R语言技术专家合作撰写期刊一篇,合作撰写科研报告16篇。邬书豪,资深R语言用户和数据分析工程师,是数据科学领域10万粉丝的知名公众号人工智能爱好者社区的负责人,公众号文章阅读量破百万。喜欢用SQL、R和Python解决工作中的数据科学问题,致力于成为一名有深度行业实践经验积累的数据科学家。在天善智能社区开设有R语言视频课程《kaggle十大案例精讲课程》。个人公众号:人工智能爱好者社区。读者可加作者微信号:wshinvest1,进入本书专属读者答疑群。
目录
推荐语
前言
第一部分 工具包篇
第1章 数据导入工具
1.1 utils——数据读取基本功
1.2 readr——进阶数据读取
1.3 utils vs readr——你喜欢哪个?
1.4 readxl——Excel文件读取
1.5 DBI——数据库数据查询、下载
1.6 pdftools——PDF文件
1.7 jsonlite——JSON文件
1.8 foreign package统计软件数据
1.9 本章小结
第2章 数据清理工具
2.1 基本概念
2.2 tibble包——数据集准备
2.3 tidyr——数据清道夫
2.4 lubridate日期时间处理
2.5 stringr字符处理工具
第3章 数据计算工具
3.1 baseR计算工具概览
3.2 dplyr包实战技巧
3.3 文本挖掘实操
第4章 基本循环——loops和*apply
4.1 for循环
4.2 while循环
4.3 “*apply”函数家族
第5章 优雅的循环——purrr包
5.1 map函数家族
5.2 探测函数群
5.3 向量操纵工具箱
5.4 其他实用函数
5.5 循环读取、清理和计算
第6章 data.table——超级“瑞士军刀”
6.1 data.table简介
6.2 基本函数
6.3 进阶应用
第二部分 案例篇
第7章 数据科学从业者调查初稿
7.1 案例背景及变量介绍
7.2 简单数据清洗
7.3 数据科学从业者探索性数据分析
7.4 封装绘图函数
7.5 通过柱状图进行探索性分析数据
7.6 未来将会学习的机器学习工具
7.7 明年将学习的机器学习方法
第8章 共享单车租用频次分析
8.1 案例简介
8.2 数据准备及描述性统计分析
8.3 数据重塑
8.4 柱状图在数据分析中的简单应用
8.5 柱状和扇形图在数据分析中的运用
8.6 折线图在数据分析中的运用
8.7 相关系数图综合分析
第9章 星巴克商业案例分析
9.1 案例背景介绍及变量介绍
9.2 数据描述性统计量分析
9.3 数据统计分析
第10章 学生成绩水平分析
10.1 数据集
10.2 探索性数据分析
第11章 YouTube视频观看分析
11.1 案例背景及相关内容介绍
11.2 探索性数据分析