Python网络爬虫权威指南(第2版)
1推荐 收藏
3.0K阅读
图灵程序设计丛书

Python网络爬虫权威指南(第2版) [预售]

瑞安·米切尔 (作者) 神烦小宝 (译者)
全面介绍网页抓取技术,解决Web数据采集、转换和使用中的诸多常见问题和痛点
本书采用简洁强大的Python 语言,介绍了网页抓取,并为抓取新式网络中的各种数据类型提供了全面的指导。第一部分重点介绍网页抓取的基本原理:如何用Python 从网络服务器请求信息,如何对服务器的响应进行基本处理,以及如何以自动化手段与网站进行交互。第二部分介绍如何用网络爬虫测试网站,自动化处理,以及如何通过更多的方式接入网络。

故障:纸书订单异常状态(20190318)

抱歉,因库房发货系统出现故障,无法正常回传快递单号。现有多笔纸书订单,虽已正常发货,但因为没有快递单号,显示状态为异常。该故障预计3个工作日内修复,期间订单,也会受到影响。客服邮箱:ebook@turingbook.com。

纸质书
¥67.15 ¥79.00

出版信息

同系列书

  • HTTP权威指南

    David Gourley   Brian Totty   Marjorie Sayer   Sailu Reddy   Anshu Aggarwal   陈涓   赵振平   译

    本书是HTTP及其相关核心Web技术方面的权威著作,主要介绍了Web应用程序是如何工作的,核心的因特网协议如何...

  • JavaScript高级程序设计(第3版)

    Nicholas C.Zakas   李松峰   曹力   译

    本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...

  • 计算机科学的基础

    Al Aho   Jeff Ullman   傅尔也   译

    本书全面而详细地阐述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...

  • Java技术手册(第6版)

    Benjamin J Evans   David Flanagan   安道   译

    通过学习本书,你将能够: 掌握最新的语言细节,包括Java 8的变化 使用基本的Java句法学习面向对...

  • 机器学习实战

    Peter Harrington   李锐   李鹏   曲亚东   王斌   译

    机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或...

本书特色

作为一种采集和理解网络上海量信息的方式,网页抓取技术变得越来越重要。而编写简单的自动化程序(网络爬虫),一次就可以自动抓取上百万个网页中的信息,实现高效的数据采集和处理,满足大量数据需求应用场景。

本书采用简洁强大的Python语言,全面介绍网页抓取技术,解答诸多常见问题和误解,是掌握从数据爬取到数据清洗全流程的系统实践指南。书中内容分为两部分。第一部分深入讲解网页抓取的基础知识,重点介绍BeautifulSoup、Scrapy等Python库的应用。第二部分介绍网络爬虫编写相关的主题,以及各种数据抓取工具和应用程序,帮你深入互联网的每个角落,分析原始数据,获取数据背后的故事,轻松解决遇到的各类网页抓取问题。第2版全面更新,新增网络爬虫模型、Scrapy和并行网页抓取相关章节。

- 解析复杂的HTML页面
- 使用Scrapy框架开发爬虫
- 学习存储数据的方法
- 从文档中读取和提取数据
- 清洗格式糟糕的数据
- 自然语言处理
- 通过表单和登录窗口抓取数据
- 抓取JavaScript及利用API抓取数据
- 图像识别与文字处理
- 避免抓取陷阱和反爬虫策略
- 使用爬虫测试网站

目录

正在加工……

作者介绍

瑞安·米切尔(Ryan Mitchell) 数据科学家、软件工程师,有丰富的网络爬虫和数据分析实战经验,目前就职于美国格理集团,经常为网页数据采集项目提供咨询服务,并在美国东北大学和美国欧林工程学院任教。
  • 想尝试一下试译
    君若雅  发表于 2018-07-02 16:12:26
    推荐
  • 请问本书有英文电子版么
    LIYAO  发表于 2018-05-16 08:45:15
    推荐
  • 如何应聘
    豌豆小子  发表于 2018-06-17 22:43:45
    推荐
  • 预计什么时候出版??
    ninjashixuan  发表于 2018-08-13 23:30:24
    推荐
  • 出第二版了!?
    nyaaaa  发表于 2018-12-17 11:43:13
    推荐
    • 刚买了第一版..

      nyaaaa  发表于 2018-12-17 11:43:28
  • 电子版期待中。@岳新欣
    binbjz  发表于 2019-02-17 14:50:10
    推荐
  • 什么时候能上啊?
    饿的不行的人  发表于 2019-03-05 14:46:21
    推荐
    • 您好,预计3月底4月初出版,感谢您的关注!

      岳新欣  发表于 2019-03-06 08:34:18
    • @岳新欣 买纸质书会送电子书吗?电子版一般什么时候上呢?

      饿的不行的人  发表于 2019-03-19 14:21:48
    • @饿的不行的人 有关电子书的问题,请您联系ebook@turingbook.com,电子书负责人会尽快回复您的:)

      岳新欣  发表于 2019-03-20 08:39:14
  • 咋老出这种没用的书。
    亚古兽  发表于 2019-03-19 11:10:46
    推荐
    • 老出?没用?如何得来的结论?阁下有何著作?小弟想瞻仰瞻仰。

      其实我是夏  发表于 2019-03-20 21:48:12
    • @其实我是夏 能不能出点技术含量高的,比如爬虫,如何反编译js,如何反编译app,这种书,市面上一大把,没技术含量,在下是不才,在下爬虫笔记,都有2000多行解决问题的笔记,从来不弄这种水文。在下,py,go,js各种爬虫多年涉猎,在下就看了看书的目录,就没兴趣了。这种没技术含量的水文,在下是不想弄出来大跌眼镜。

      亚古兽  发表于 2019-03-21 11:10:57
    • @亚古兽 不过,看了看阁下给我的建议,我这么多年的爬虫经验,好像也可以写本书,那些年倒在我脚下的网站,作为爬虫的书籍是否合适?

      亚古兽  发表于 2019-03-21 11:14:41