第一部分 创建爬虫

第一部分 创建爬虫

本书第一部分重点介绍网页抓取的基本原理:如何用 Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化方式与网站交互。最终,你将轻松游弋于网络空间,创建出具有域名切换、信息收集以及信息存储功能的爬虫。

说实话,如果你想以较少的预先投入获取较高的回报,网页抓取肯定是一个值得踏入的神奇领域。大体上,你遇到的 90% 的网页抓取项目使用的都是接下来的 6 章里介绍的技术。这部分内容涵盖了一般人(也包括技术达人)在思考“网络爬虫”时通常的想法:

  • 通过网站域名获取 HTML 数据
  • 解析数据,获取目标信息
  • 存储目标信息
  • 如果有必要,移动到另一个网页重复这个过程

这将为你学习本书第二部分中更复杂的项目奠定坚实的基础。不要天真地认为这部分内容没有第二部分里的一些比较高级的项目重要。其实,当你写自己的网络爬虫时,几乎每天都要用到第一部分的所有内容。

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 前言
  • 第一部分 创建爬虫
  • 第 1 章 初见网络爬虫
  • 第 2 章 复杂 HTML 解析
  • 第 3 章 编写网络爬虫
  • 第 4 章 网络爬虫模型
  • 第 5 章 Scrapy
  • 第 6 章 存储数据
  • 第二部分 高级网页抓取
  • 第 7 章 读取文档
  • 第 8 章 数据清洗
  • 第 9 章 自然语言处理
  • 第 10 章 穿越网页表单与登录窗口进行抓取
  • 第 11 章 抓取 JavaScript
  • 第 12 章 利用 API 抓取数据
  • 第 13 章 图像识别与文字处理
  • 第 14 章 避开抓取陷阱
  • 第 15 章 用爬虫测试网站
  • 第 16 章 并行网页抓取
  • 第 17 章 远程抓取
  • 第 18 章 网页抓取的法律与道德约束
  • 关于作者
  • 关于封面