Python网络爬虫权威指南(第2版)
8推荐 收藏
18.3K阅读
图灵程序设计丛书

Python网络爬虫权威指南(第2版)

瑞安·米切尔 (作者) 神烦小宝 (译者)
全面介绍网页抓取技术,解决Web数据采集、转换和使用中的诸多常见问题和痛点
本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。
电子书
¥39.99
格式
mobi   pdf

纸质书
¥64.78 ¥79.00

出版信息

同系列书

  • HTTP权威指南

    David Gourley   Brian Totty   Marjorie Sayer   Sailu Reddy   Anshu Aggarwal   陈涓   赵振平   译

    本书是HTTP及其相关核心Web技术方面的权威著作,主要介绍了Web应用程序是如何工作的,核心的因特网协议如何...

  • JavaScript高级程序设计(第3版)

    Nicholas C.Zakas   李松峰   曹力   译

    本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...

  • 计算机科学的基础

    Al Aho   Jeff Ullman   傅尔也   译

    本书全面而详细地阐述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...

  • Java技术手册(第6版)

    Benjamin J Evans   David Flanagan   安道   译

    通过学习本书,你将能够: 掌握最新的语言细节,包括Java 8的变化 使用基本的Java句法学习面向对...

  • 机器学习实战

    Peter Harrington   李锐   李鹏   曲亚东   王斌   译

    机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或...

本书特色

作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。

- 解析复杂的HTML页面
- 使用Scrapy框架开发爬虫
- 学习存储数据的方法
- 从文档中读取和提取数据
- 清洗格式糟糕的数据
- 自然语言处理
- 通过表单和登录窗口抓取数据
- 抓取JavaScript及利用API抓取数据
- 图像识别与文字处理
- 避免抓取陷阱和反爬虫策略
- 使用爬虫测试网站

目录

版权声明 阅读
O'Reilly Media, Inc. 介绍 阅读
前言 阅读
第一部分 创建爬虫 阅读
第 1 章 初见网络爬虫 阅读
第 2 章 复杂 HTML 解析
第 3 章 编写网络爬虫
第 4 章 网络爬虫模型
第 5 章 Scrapy
第 6 章 存储数据
第二部分 高级网页抓取
第 7 章 读取文档
第 8 章 数据清洗
第 9 章 自然语言处理
第 10 章 穿越网页表单与登录窗口进行抓取
第 11 章 抓取 JavaScript
第 12 章 利用 API 抓取数据
第 13 章 图像识别与文字处理
第 14 章 避开抓取陷阱
第 15 章 用爬虫测试网站
第 16 章 并行网页抓取
第 17 章 远程抓取
第 18 章 网页抓取的法律与道德约束
关于作者 阅读
关于封面 阅读

作者介绍

瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。
  • 想尝试一下试译
    君若雅  发表于 2018-07-02 16:12:26
    推荐
  • 咋老出这种没用的书。
    亚古兽  发表于 2019-03-19 11:10:46
    推荐
    • 老出?没用?如何得来的结论?阁下有何著作?小弟想瞻仰瞻仰。

      其实我是夏  发表于 2019-03-20 21:48:12
    • @其实我是夏 能不能出点技术含量高的,比如爬虫,如何反编译js,如何反编译app,这种书,市面上一大把,没技术含量,在下是不才,在下爬虫笔记,都有2000多行解决问题的笔记,从来不弄这种水文。在下,py,go,js各种爬虫多年涉猎,在下就看了看书的目录,就没兴趣了。这种没技术含量的水文,在下是不想弄出来大跌眼镜。

      亚古兽  发表于 2019-03-21 11:10:57
    • @亚古兽 不过,看了看阁下给我的建议,我这么多年的爬虫经验,好像也可以写本书,那些年倒在我脚下的网站,作为爬虫的书籍是否合适?

      亚古兽  发表于 2019-03-21 11:14:41
    • 赞同。真正搞过爬虫的就知道了。

      frankzzziii  发表于 2019-03-27 20:24:55
    • @亚古兽 身边这么多算法数据分析师,像你这么高段位的,确实没有。出个不水的书让大家学习学习。

      binbjz  发表于 2019-04-03 21:19:18
    • 那能推荐一些适合学习爬虫的教程或书籍吗?非杠 真心问

      Patrik  发表于 2019-04-08 17:39:07
    • @亚古兽 你的笔记,有几个人看?没人看的话,对你自己或许有用,对这世界就是垃圾。

      蚕宝宝小子  发表于 2019-04-09 09:39:36
    • 阁下可否将自己的笔记贴出来让大伙学习学习?

      Joshua Lee  发表于 2019-04-12 08:35:28
    • 你别买、也当面没看到就行,真正学习的人是从基础学起的,你要不服可以自己去写!

      学好IT吊打小学僧  发表于 2019-04-12 14:32:10
    • 老哥应该是精通者或者专家级别的,技能级别越高,越难有现成的知识可以学,希望老哥能根据自己的经验整理一下博客,出本书,帮助高级新手能够进阶一下。入门书确实是遍地都是呢

      董晓勇  发表于 2019-04-13 10:25:43
    • @亚古兽 明白人,这些垃圾书层出不穷

      w1614067865  发表于 2019-05-19 23:38:04
    • 那麻烦你来点实际的?干说?你的博客或者笔记的链接呢??

      XUNAYUAN  发表于 2019-06-26 10:24:34
  • 图书购买链接:https://detail.tmall.com/item.htm?id=590819922912
    PKJ  发表于 2019-04-26 17:19:30
    推荐
  • 请问本书有英文电子版么
    LIYAO  发表于 2018-05-16 08:45:15
    推荐
  • 如何应聘
    豌豆小子  发表于 2018-06-17 22:43:45
    推荐
  • 预计什么时候出版??
    ninjashixuan  发表于 2018-08-13 23:30:24
    推荐
  • 出第二版了!?
    nyaaaa  发表于 2018-12-17 11:43:13
    推荐
    • 刚买了第一版..

      nyaaaa  发表于 2018-12-17 11:43:28
    • @ny 没事,第二版有优惠

      ninkaki  发表于 2019-07-03 11:58:06
  • 电子版期待中。@岳新欣
    binbjz  发表于 2019-02-17 14:50:10
    推荐
  • 什么时候能上啊?
    饿的不行的人  发表于 2019-03-05 14:46:21
    推荐
    • 您好,预计3月底4月初出版,感谢您的关注!

      岳新欣  发表于 2019-03-06 08:34:18
    • @岳新欣 买纸质书会送电子书吗?电子版一般什么时候上呢?

      饿的不行的人  发表于 2019-03-19 14:21:48
    • @饿的不行的人 有关电子书的问题,请您联系ebook@turingbook.com,电子书负责人会尽快回复您的:)

      岳新欣  发表于 2019-03-20 08:39:14
  • 有第一版的人买第二版会优惠么?
    逆转ws  发表于 2019-03-27 09:56:37
    推荐
    • 买电子书有优惠的,具体优惠多少请咨询ebook@turingbook.com,感谢您对这本书的支持和关注!

      岳新欣  发表于 2019-03-27 10:01:15
    • 优惠20元

      学好IT吊打小学僧  发表于 2019-04-12 14:32:39
    • @学好IT吊打小学僧 我也是买了第一版,想买第二版优惠怎么获得?

      anduril  发表于 2019-08-20 10:08:43
    • @anduril 平台会有私信的,里面会有说明

      学好IT吊打小学僧  发表于 2019-08-22 12:56:29
  • 预售是现在买了还不能看嘛?
    众生牛马  发表于 2019-04-09 20:18:45
    推荐
    • 电子书是购买之后就可以下载阅读的。

      岳新欣  发表于 2019-04-10 08:28:26
  • 请问第二版在第一版的基础上修订了哪些内容?
    wellsun  发表于 2019-04-22 11:27:08
    推荐
    • 第一版只有十四章,第二版加入了Scrapy内容,第一版讲解内容的章节划分在第二版也有改变。

      贾洛  发表于 2019-04-23 16:15:53
  • 我在运行书上的源码时遇到了一些问题,请问有人有过这样的情况吗?·并没有找到解决方案
    听说_1  发表于 2019-05-02 19:03:56
    推荐
  • 为什么爬虫用的网站链接不存在呀
    elsa.z  发表于 2019-09-03 22:52:53
    推荐