logo
分类于: 编程语言 云计算&大数据 互联网

简介

用Python写网络爬虫

用Python写网络爬虫 7.2分

资源最后更新于 2020-06-20 23:00:34

作者:[澳]理查德 劳森

出版社:人民邮电出版社

出版日期:2016-8-1

ISBN:9787115431790

文件格式: pdf

标签: Python编程 网络爬虫

简介· · · · · ·

作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。 《用Python写网络爬虫》作为使用Python来爬取网络数据的杰出指南,讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本书还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本书使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。 《用Python写网络爬虫》介绍了如下内容: 通过跟踪链接来爬取网站; 使用lxml从页面中抽取数据; 构建线程爬虫来并行爬取页面; 将下载的内容进行缓存,以降低带宽消耗; 解析依赖于JavaScript的网站; 与表单和会话进行交互; 解决受保护页面的验证码问题; 对AJAX调用进行逆向工程; 使用Scrapy创建高级爬虫。 本书读者对象 本书是为想要构建可靠的数据爬取解决方案的开发人员写作的,本书假定读者具有一定的Python编程经验。当然,具备其他编程语言开发经验的读者也可以阅读本书,并理解书中涉及的概念和原理。

想要: 点击会收藏到你的 我的收藏,可以在这里查看

已收: 表示已经收藏

Tips: 注册一个用户 可以通过用户中心得到电子书更新的通知哦