《Learning Scrapy》(中文版)0 序言


序言
第1章 Scrapy介绍
第2章 理解HTML和XPath
第3章 爬虫基础
第4章 从Scrapy到移动应用
第5章 快速构建爬虫
第6章 Scrapinghub部署
第7章 配置和管理
第8章 Scrapy编程
第9章 使用Pipeline
第10章 理解Scrapy的性能
第11章(完) Scrapyd分布式抓取和实时分析


作者简介

Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中,受众广泛。

他精通数个领域,包括数学、物理和微电子。对这些学科的理解帮助使他得到了提高,超越了软件的“实用方案”。他认为,好的解决方案应该像物理学一样确定,像纠错内存一样拥有健壮性,并且像数学原理一样具有通用性。

Dimitris现在正在使用最新的数据中心技术,着手开发分布式、低延迟、高可用性的系统。他运用多个编程语言,但更偏爱Python、C++和Java。作为开源软硬件的坚定支持者,他希望对独立开发群体和整个人类做出贡献。


审稿人简介

Lazar Telebak是一名网络开发*从业者,专精于网络抓取和利用Python库和框架进行网页索引。

他的主要工作涉及自动化、网络抓取和数据导出,导出为CSV、JSON、XML和TXT等多种格式,或是导出到MongoDB、SQLAlchemy和Postgres等数据库。

他还会使用网络前端技术:HTML、CSS、JS和Jquery。


序言

让我大胆猜一下,下面两个故事肯定有一个说的是你。

你第一次碰到Scrapy是在搜索“Python网络抓取”的时候。你瞟了一眼Scrapy想,“这个太复杂,我需要个简单的。”然后你就开始用requests写Python代码,在BeautifulSoup上碰到点麻烦,但最后成功了。这个程序有点慢,所以你让它昼夜不停的运行。重启了几次、忽略了一些坏链和非英文字符,早上的时候,大部分网页都存在你的硬盘里了。但是,因为一些未知的技术原因,你再也不想看这段代码了。下次你再抓取网络的时候,你直接登录scrapy.org,这次Scrapy文档看起来合理多了,感觉不用费力就可以解决所有问题。并且,Scrapy还能解决你没想到的问题。你再也不用以前的方法了。

或者,你是在做网络抓取调研时碰到的Scrapy。你需要一个可靠快速的企业级工具,毫无疑问,就是只要轻轻一击就能进行网络抓取。这个工具不仅要简单,而且可以根据不同的数据源进行灵活的定制,提供多种的数据输出方式,可以自动24/7的可靠运行。比起要价很高的提供网络抓取服务的公司,你偏向于开源的解决方案。从一开始,Scrapy就是当然的选择。

无论你是如何听说Scrapy的,我都热烈欢迎你翻开这本专门为Scrapy而写的书。Scrapy是全世界网络抓取专家的秘密武器。在专家手中,Scrapy节省了大量时间,表现出众,花费最少。如果你缺少经验,但想像这些专家一样,很可惜,Google帮不上你什么忙。网上关于Scrapy的大部分信息不是过于简化无效,就是太过复杂。对每个想获得准确、可用、规范的Scrapy知识的人,这是本必备的书。希望这本书可以扩大Scrapy社区,让Scrapy被更多人采用。

本书的内容

第1章,Scrapy介绍,向你介绍这本书和Scrapy,使你对Scrapy框架和后面章节有清醒的认识。

第2章,理解HTML和XPath,让爬虫初学者掌握基础的网页相关技术,以及后面会使用到的技术。

第3章,爬虫基础,我们会学习如何安装Scrapy和抓取网站。通过一步步搭建实例,让读者理解方法和背后的逻辑。学过这一章,你就可以抓取大部分简单站点了。

第4章,从Scrapy到移动应用,我们如何使用爬虫生成数据库和向移动应用提供数据支持。通过这一章,你会明白如何用网络抓取获益。

第5章,快速构建爬虫,介绍更多关于爬虫的特点,模拟登陆、更快抓取、使用APIs、爬URL的方法。

第6章,Scrapinghub部署,如何将爬虫部署到Scrapinghub云服务器,以尝试更快的可用性、简易部署和操作。

第7章,配置和管理,详细介绍利用Scrapy的配置文件对爬虫进行改进。

第8章,Scrapy编程,使用底层Twisted引擎和Scrapy架构扩展爬虫功能。

第9章,如何使用Pipelines,在不明显降低性能的条件下,举例实现Scrapy连接MySQL、Elasticsearch、Redis、APIs和应用。

第10章,理解Scrapy的性能,Scrapy的工作机制,如何提高Scrapy的性能。

第11章,Scrapyd分布式抓取和实时分析,最后一章介绍如何在多台服务器中使用Scrapyd以实现水平伸缩性,并将数据传送到Apache Spark进行实时分析。


序言
第1章 Scrapy介绍
第2章 理解HTML和XPath
第3章 爬虫基础
第4章 从Scrapy到移动应用
第5章 快速构建爬虫
第6章 Scrapinghub部署
第7章 配置和管理
第8章 Scrapy编程
第9章 使用Pipeline
第10章 理解Scrapy的性能
第11章(完) Scrapyd分布式抓取和实时分析


本书第二版会在2018年三月份出版。第二版的目标是对应Scrapy 1.4版本。但那时,恐怕Scrapy又要升级了。

《Learning Scrapy》(中文版)0 序言

新版内容增加了100页,达到了365页。
https://www.packtpub.com/big-data-and-business-intelligence/learning-scrapy-second-edition

上一篇:红黑树


下一篇:greenlet: Lightweight concurrent programming