版权声明

版权声明

© 2015 by Ryan Mitchell.

Simplified Chinese Edition, jointly published by O'Reilly Media, Inc. and Posts & Telecom Press, 2016. Authorized translation of the English edition, 2015 O'Reilly Media, Inc., the owner of all rights to publish and sell the same.

All rights reserved including the rights of reproduction in whole or in part in any form.

英文原版由 O'Reilly Media, Inc. 出版,2015。

简体中文版由人民邮电出版社出版,2016。英文原版的翻译得到 O'Reilly Media, Inc. 的授权。此简体中文版的出版和销售得到出版权和销售权的所有者——O'Reilly Media, Inc. 的许可。

版权所有,未得书面许可,本书的任何部分和全部不得以任何形式重制。

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 译者序
  • 前言
  • 第一部分 创建爬虫
  • 第 1 章 初见网络爬虫
  • 第 2 章 复杂 HTML 解析
  • 第 3 章 开始采集
  • 第 4 章 使用 API
  • 第 5 章 存储数据
  • 第 6 章 读取文档
  • 第二部分 高级数据采集
  • 第 7 章 数据清洗
  • 第 8 章 自然语言处理
  • 第 9 章 穿越网页表单与登录窗口进行采集
  • 第 10 章 采集 JavaScript
  • 第 11 章 图像识别与文字处理
  • 第 12 章 避开采集陷阱
  • 第 13 章 用爬虫测试网站
  • 第 14 章 远程采集
  • 附录 A Python 简介
  • 附录 B 互联网简介
  • 附录 C 网络数据采集的法律与道德约束
  • 作者简介
  • 封面介绍