关于作者

关于作者

瑞安 • 米切尔Ryan Mitchell)是美国波士顿 HedgeServ 公司的一名高级软件工程师,负责开发公司的 API 和数据分析工具。她本科毕业于美国欧林工程学院,之后在哈佛大学继续教育学院获得了软件工程硕士学位和数据科学证书。在加入 HedgeServ 公司之前,她曾在 Abine 公司构建网络爬虫和网络机器人。她还经常为零售、金融和医药行业的网页抓取项目提供咨询服务,并在美国东北大学和美国欧林工程学院担任课程顾问和兼职教员。

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 前言
  • 第一部分 创建爬虫
  • 第 1 章 初见网络爬虫
  • 第 2 章 复杂 HTML 解析
  • 第 3 章 编写网络爬虫
  • 第 4 章 网络爬虫模型
  • 第 5 章 Scrapy
  • 第 6 章 存储数据
  • 第二部分 高级网页抓取
  • 第 7 章 读取文档
  • 第 8 章 数据清洗
  • 第 9 章 自然语言处理
  • 第 10 章 穿越网页表单与登录窗口进行抓取
  • 第 11 章 抓取 JavaScript
  • 第 12 章 利用 API 抓取数据
  • 第 13 章 图像识别与文字处理
  • 第 14 章 避开抓取陷阱
  • 第 15 章 用爬虫测试网站
  • 第 16 章 并行网页抓取
  • 第 17 章 远程抓取
  • 第 18 章 网页抓取的法律与道德约束
  • 关于作者
  • 关于封面