《Learning Scrapy》（中文版）0 序言

2022-01-04 15:02:46

序言
第1章 Scrapy介绍
 第2章理解HTML和XPath
第3章爬虫基础
 第4章从Scrapy到移动应用
 第5章快速构建爬虫
 第6章 Scrapinghub部署
 第7章配置和管理
 第8章 Scrapy编程
 第9章使用Pipeline
第10章理解Scrapy的性能
 第11章（完） Scrapyd分布式抓取和实时分析

作者简介

Dimitris Kouzis – Loukas有超过15年的软件开发经历。同时他也参与到教学活动中，受众广泛。

他精通数个领域，包括数学、物理和微电子。对这些学科的理解帮助使他得到了提高，超越了软件的“实用方案”。他认为，好的解决方案应该像物理学一样确定，像纠错内存一样拥有健壮性，并且像数学原理一样具有通用性。

Dimitris现在正在使用最新的数据中心技术，着手开发分布式、低延迟、高可用性的系统。他运用多个编程语言，但更偏爱Python、C++和Java。作为开源软硬件的坚定支持者，他希望对独立开发群体和整个人类做出贡献。

审稿人简介

Lazar Telebak是一名网络开发*从业者，专精于网络抓取和利用Python库和框架进行网页索引。

他的主要工作涉及自动化、网络抓取和数据导出，导出为CSV、JSON、XML和TXT等多种格式，或是导出到MongoDB、SQLAlchemy和Postgres等数据库。

他还会使用网络前端技术：HTML、CSS、JS和Jquery。

序言

让我大胆猜一下，下面两个故事肯定有一个说的是你。

你第一次碰到Scrapy是在搜索“Python网络抓取”的时候。你瞟了一眼Scrapy想，“这个太复杂，我需要个简单的。”然后你就开始用requests写Python代码，在BeautifulSoup上碰到点麻烦，但最后成功了。这个程序有点慢，所以你让它昼夜不停的运行。重启了几次、忽略了一些坏链和非英文字符，早上的时候，大部分网页都存在你的硬盘里了。但是，因为一些未知的技术原因，你再也不想看这段代码了。下次你再抓取网络的时候，你直接登录scrapy.org，这次Scrapy文档看起来合理多了，感觉不用费力就可以解决所有问题。并且，Scrapy还能解决你没想到的问题。你再也不用以前的方法了。

或者，你是在做网络抓取调研时碰到的Scrapy。你需要一个可靠快速的企业级工具，毫无疑问，就是只要轻轻一击就能进行网络抓取。这个工具不仅要简单，而且可以根据不同的数据源进行灵活的定制，提供多种的数据输出方式，可以自动24/7的可靠运行。比起要价很高的提供网络抓取服务的公司，你偏向于开源的解决方案。从一开始，Scrapy就是当然的选择。

无论你是如何听说Scrapy的，我都热烈欢迎你翻开这本专门为Scrapy而写的书。Scrapy是全世界网络抓取专家的秘密武器。在专家手中，Scrapy节省了大量时间，表现出众，花费最少。如果你缺少经验，但想像这些专家一样，很可惜，Google帮不上你什么忙。网上关于Scrapy的大部分信息不是过于简化无效，就是太过复杂。对每个想获得准确、可用、规范的Scrapy知识的人，这是本必备的书。希望这本书可以扩大Scrapy社区，让Scrapy被更多人采用。

本书的内容

第1章，Scrapy介绍，向你介绍这本书和Scrapy，使你对Scrapy框架和后面章节有清醒的认识。

第2章，理解HTML和XPath，让爬虫初学者掌握基础的网页相关技术，以及后面会使用到的技术。

第3章，爬虫基础，我们会学习如何安装Scrapy和抓取网站。通过一步步搭建实例，让读者理解方法和背后的逻辑。学过这一章，你就可以抓取大部分简单站点了。

第4章，从Scrapy到移动应用，我们如何使用爬虫生成数据库和向移动应用提供数据支持。通过这一章，你会明白如何用网络抓取获益。

第5章，快速构建爬虫，介绍更多关于爬虫的特点，模拟登陆、更快抓取、使用APIs、爬URL的方法。

第6章，Scrapinghub部署，如何将爬虫部署到Scrapinghub云服务器，以尝试更快的可用性、简易部署和操作。

第7章，配置和管理，详细介绍利用Scrapy的配置文件对爬虫进行改进。

第8章，Scrapy编程，使用底层Twisted引擎和Scrapy架构扩展爬虫功能。

第9章，如何使用Pipelines，在不明显降低性能的条件下，举例实现Scrapy连接MySQL、Elasticsearch、Redis、APIs和应用。

第10章，理解Scrapy的性能，Scrapy的工作机制，如何提高Scrapy的性能。

第11章，Scrapyd分布式抓取和实时分析，最后一章介绍如何在多台服务器中使用Scrapyd以实现水平伸缩性，并将数据传送到Apache Spark进行实时分析。

本书第二版会在2018年三月份出版。第二版的目标是对应Scrapy 1.4版本。但那时，恐怕Scrapy又要升级了。

新版内容增加了100页，达到了365页。
https://www.packtpub.com/big-data-and-business-intelligence/learning-scrapy-second-edition

码农公寓

作者简介

审稿人简介

序言

本书的内容

相关文章