序 二

众所周知,人工智能的这次浪潮和深度学习技术的突破密不可分,却很少有人会谈论另一位幕后英雄,即数据。如果不是网络上有如此多的图片,李飞飞教授也无法构建近千万的标注图片集合ImageNet,从而成就深度学习技术在图像识别领域的突破。如果不是在网络上有了如此多的聊天数据,小冰也不会学习到人类的情商,在聊天中带给人类惊喜、欢笑和抚慰。人工智能的进步离不开数据和算法的结合,人类无意间产生的数据却能够让机器学习到超乎想象的“智慧”,反过来服务人类。

在互联网时代,强大的爬虫技术造就了很多伟大的搜索引擎公司,让人类的记忆搜索能力得到巨大的延展。今天在移动互联网时代,爬虫技术仍然是支撑一些信息融合应用(如今日头条)的关键技术。但是,今天爬虫技术面临着更大的挑战。与互联网的共享机制不同,很多资源只有在登录之后才能访问,还采取了各种反爬虫措施,这就让爬虫不那么容易访问这些资源。无论是产品还是研究,都需要大量的优质数据来让机器更加智能。因此,在这个时代,大量的从业者急需一本全面介绍爬虫技术的书。如果你需要了解全面和前沿的爬虫技术,而且想迅速地上手实战,这本书就是首选。

我很荣幸认识崔庆才先生,他目前还是一名北京航空航天大学在读研究生,正处在一个对技术狂热追求的年纪。我听他讲了一些修炼爬虫技术的故事,很有意思。他在本科的时候因为一个项目开始接触爬虫,之后他用爬虫竟然得到了所在学校同学的照片,还帮助他的哥们儿追其他系的女孩。我问他是否也是用这些信息找到了女友,他甩了下头发,酷酷地说:“需要吗?”

崔庆才是个非常擅长学习的人,他玩什么都能玩到精通。他有一个很好的习惯,就是边学边写,他早期学习爬虫技术的时候,就开了博客,边学边分享他学到并实际操作过的经验,圈粉无数。我很受启发,这样的学习模式很高效,要教给别人之前自己必须弄得特别清楚。另一方面,互联网上的互动也给了他继续学习和精益求精的动力。

除了网络,图书是最成体系的经验分享。本书记录了崔庆才先生对爬虫实战技术最精华的部分。我已经迫不及待地想买一本,也一定会把它推荐给更多的朋友。

宋睿华,微软小冰首席科学家

2017年10月

目录

  • 序 一
  • 序 二
  • 前 言
  • 第1章 开发环境配置
  • 第2章 爬虫基础
  • 第3章 基本库的使用
  • 第4章 解析库的使用
  • 第5章 数据存储
  • 第6章 Ajax数据爬取
  • 第7章 动态渲染页面爬取
  • 第8章 验证码的识别
  • 第9章 代理的使用
  • 第10章 模拟登录 
  • 第11章 App的爬取
  • 第12章 pyspider框架的使用
  • 第13章 Scrapy框架的使用
  • 第14章 分布式爬虫
  • 第15章 分布式爬虫的部署