注重体验与质量的电子书资源下载网站
分类于: 互联网 云计算&大数据 职场办公
简介
数据科学实战之网络爬取:Python实践和示例: 数据科学与工程技术丛书 豆 0.0分
资源最后更新于 2020-03-29 04:20:46
作者:〔比〕希普·万登·布鲁克(Seppe vanden Broucke)〔比〕巴特·巴森斯(Bart Baesens)
译者:罗娜李福杰
出版社:出版社机械工业出版社
出版日期:2018-11
ISBN:9787111614043
文件格式: pdf
标签: 互联网 外国文学 编程语言 数据 Python 数据科学与工程技术丛书
简介· · · · · ·
本书提供了一个完整的、现代的Web抓取指南,使用Python作为编程语言,专为数据科学的读者编写,探讨了Web抓取和以及其背后的大量Web技术。书中首先简要概述抓取和现实生活中的用例,解释了HTTP、HTML和CSS的核心概念作为基础。最后总结了一些最佳实践和一系列的例子,这些数据科学用例汇集了你学到的所有知识。读者将学习到如何利用已建立的最佳实践和常用的Python包,处理包括JavaScript、Cookie和常见的web抓取技术。希普·万登·布鲁克(Seppe vanden Broucke),巴特·巴森斯(Bart Baesens)著。
目录
译者序
作者简介
技术审校者简介
前言
第一部分 网络爬取基础
第1章 简介
1.1 什么是网络爬取
1.2 准备工作
第2章 网络传输协议HTTP
2.1 网络的魔力
2.2 超文本传输协议
2.3 Python中的HTTP——Requests库
2.4 带参数的URL查询字符串
第3章 HTML和CSS
3.1 超文本标记语言HTML
3.2 将浏览器用作开发工具
3.3 层叠样式表CSS
3.4 Beautiful Soup库
3.5 有关Beautiful Soup的更多内容
第二部分 高级网络爬取
第4章 深入挖掘HTTP
4.1 使用表单和POST请求
4.2 其他HTTP请求方法
4.3 关于头的更多信息
4.4 使用Cookie
4.5 requests库的session对象
4.6 二进制、JSON和其他形式的内容
第5章 处理JavaScript
5.1 什么是JavaScript
5.2 爬取JavaScript
5.3 使用Selenium爬取网页
5.4 Selenium的更多信息
第6章 从网络爬取到网络爬虫
6.1 什么是网络爬虫
6.2 使用Python实现网络爬虫
6.3 数据库存储
第三部分 相关管理问题及最佳实践
第7章 网络爬取涉及的管理和法律问题
7.1 数据科学过程
7.2 网络爬取适合用于哪里
7.3 法律问题
第8章 结语
8.1 其他工具
8.2 最佳实践和技巧
第9章 示例
9.1 爬取Hacker News网页
9.2 使用Hacker News API
9.3 爬取引用信息
9.4 爬取书籍信息
9.5 爬取GitHub上项目被收藏的次数
9.6 爬取抵押贷款利率
9.7 爬取和可视化IMDB评级
9.8 爬取IATA航空公司信息
9.9 爬取和分析网络论坛的互动
9.10 收集和聚类时尚数据集
9.11 Amazon评论的情感分析
9.12 爬取和分析维基百科关联图
9.13 爬取和可视化董事会成员图
9.14 使用深度学习破解验证码图片