Python网络数据采集
58推荐 收藏
133.1K阅读

Python网络数据采集

Ryan Mitchell (作者) 陶俊杰 , 陈小莉 (译者)
2016年最受欢迎电子书 技术类TOP10,全榜单:http://www.ituring.com.cn/article/273709
第2版已发布:http://www.ituring.com.cn/book/1980
本书适合熟悉Python的程序员、安全专业人士、网络管理员阅读。书中不仅介绍了网络数据采集的基本原理,还深入探讨了更高级的主题,比如分析原始数据、用网络爬虫测试网站等。此外,书中还提供了详细的代码示例,以帮助你更好地理解书中的内容。

通过阅读本书,你将能够:

解析复杂的HTML页面
遍历多个网页和网站
了解API的基本概念和工作原理
学习存储数据的方法
下载、读取并抽取网络文档中的数据
使用工具和方法清洗格式异常的数据
读取并处理自然语言
越过表单和登录窗口采集数据
学习采集JavaScript的方法
学习图像处理和文字识别方法

“这本书中的工具和示例帮我轻松地将一些重复性工作自动化了,我可以将省下来的时间用于解决更有意思的问题。这是一本实用手册,非常适合用来解决实际工作中的问题。”——Eric VanWyk,美国欧林工程学院电子计算机工程师

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

电子书
¥29.99
格式
mobi   pdf

纸质书
¥46.61 ¥59.00

出版信息

本书特色

网络上的数据量越来越大,单靠浏览网页获取信息越来越困难,如何有效地提取并利用信息已成为一个巨大的挑战。本书采用简洁强大的Python语言,全面介绍网络数据采集技术,教你从不同形式的网络资源中自由地获取数据。你将学会如何使用Python脚本和网络API一次性采集并处理成千上万个网页上的数据。

目录

版权声明 阅读
O'Reilly Media, Inc. 介绍 阅读
译者序 阅读
前言 阅读
第一部分 创建爬虫 阅读
第 1 章 初见网络爬虫 阅读
第 2 章 复杂 HTML 解析
第 3 章 开始采集
第 4 章 使用 API
第 5 章 存储数据
第 6 章 读取文档
第二部分 高级数据采集
第 7 章 数据清洗
第 8 章 自然语言处理
第 9 章 穿越网页表单与登录窗口进行采集
第 10 章 采集 JavaScript
第 11 章 图像识别与文字处理
第 12 章 避开采集陷阱
第 13 章 用爬虫测试网站
第 14 章 远程采集
附录 A Python 简介
附录 B 互联网简介
附录 C 网络数据采集的法律与道德约束
作者简介
封面介绍

作者介绍

<作者简介>
Ryan Mitchell是数据科学家、软件工程师,目前在波士顿LinkeDrive公司负责开发公司的API和数据分析工具。此前,曾在Abine公司构建网络爬虫和网络机器人。她经常做网络数据采集项目的咨询工作,主要面向金融和零售业。另著有Instant Web Scraping with Java。

<译者简介>
陶俊杰
长期从事数据分析工作,酷爱Python,每天都和Python面对面,乐此不疲。本科毕业于北京交通大学机电学院,硕士毕业于北京交通大学经管学院。曾就职于中国移动设计院,目前在京东任职。
陈小莉
长期从事数据分析工作,喜欢Python。本科与硕士毕业于北京交通大学电信学院。目前在中科院从事科技文献与专利分析工作。

大家也喜欢

  • Python数据结构与算法分析(第2版)

    布拉德利·米勒   戴维·拉努姆   吕能   刁寿钧   译

    了解数据结构与算法是透彻理解计算机科学的前提。随着Python日益广泛的应用,Python程序员需要实现与传统...

  • Serverless架构应用开发:Python实现

    [印] 贾莱姆·拉杰·罗希特   安翔   译

    本书主要基于云架构的Python示例来讲解Serverless的概念。Serverless架构的核心思想是函数...

  • Python数据科学与机器学习:从入门到实践

    【美】弗兰克•凯恩(Frank Kane)   陈光欣   译

    本书介绍了使用Python进行数据分析和高效的机器学习,首先从一节Python速成课开始,然后回顾统计学和概率...

  • 深入理解Python特性

    [德]达恩·巴德尔(Dan Bader)   孙波翔   译

    本书致力于帮助Python开发人员挖掘这门语言及相关程序库的优秀特性,避免重复劳动,同时写出简洁、流畅、易读、...

  • 精通特征工程

    爱丽丝·郑   阿曼达·卡萨丽   陈光欣   译

    本书介绍大量特征工程技术,阐明特征工程的基本原则。主要内容包括:机器学习流程中 的基本概念,数值型数据的基础...

相关文章

  • 看到勘误里已经有对第四次印刷的勘误了,为什么电子版还是第一次印刷的版本?勘误里的问题在电子版里也没有修订,依然存在!
    ifelif  发表于 2016-07-19 11:47:37
    推荐
    • 貌似图灵的电子版更新的不够及时

      威灵顿  发表于 2016-10-06 20:13:17
  • 作为稍微有点编程基础,尤其是web基础的人来说,这本书作为爬虫入门再合适不过,书的内容不错,作者写的也不错。而且这本书后半部分终于让人明白了 为什么Python是网络爬虫的最佳编程工具。
    liiyee  发表于 2016-08-24 00:33:26
    推荐
    • 为什么啊,不要吊胃口啊兄弟

      bliu23  发表于 2016-10-10 20:56:12
    • @bliu23 这是个陈述句啊兄弟

      okface  发表于 2017-11-01 14:00:47
    • 兄弟,1年前的帖子了啊,感谢回复^^

      bliu23  发表于 2017-11-04 14:34:00
  • 勘误中的问题,为什么电子版还有。
    cuing  发表于 2016-06-15 13:32:20
    推荐
  • 期待电子版
    Taipa  发表于 2016-02-29 23:19:48
    推荐
    • 是的,可以在浏览器里面copy代码。

      simonclickk  发表于 2016-03-01 15:38:15
  • 看了英文电子版的,是python3,很好。大多python3的书是教编程的,将应用的很少。这个是讲应用,不错。
    simonclickk  发表于 2016-03-02 09:06:15
    推荐
    • 哪里有电子版啊

      于杰  发表于 2016-03-02 20:16:47
    • 在版权保护不严格的国度是可以找到英文电子版全文本的。不过国外似乎也可以找到。

      simonclickk  发表于 2016-03-03 09:51:01
  • 有电子版本的吗?
    XiaoKuiKui  发表于 2016-03-04 17:59:29
    推荐
    • 稍后会有的。

      岳新欣  发表于 2016-03-07 10:53:22
    • 必须有电子版,可以实时copy代码。尤其对于爬虫这种实验性强,并且被爬网站内容很可能变了。是的,即使是python也要copy/paste

      simonclickk  发表于 2016-03-08 16:47:17
  • 什么时候可以买?
    XiaoKuiKui  发表于 2016-03-05 09:20:54
    推荐
    • 正在印刷中,中旬就可以上市了。

      岳新欣  发表于 2016-03-07 10:53:12
  • 电子版 能不能先上
    Tio  发表于 2016-03-08 19:02:20
    推荐
    • 先后没有关系,先看英文电子版。值得话再买入。

      simonclickk  发表于 2016-03-11 14:30:26
  • 还有多久才能出来
    叶永  发表于 2016-03-17 22:52:24
    推荐
    • 下周差不多了。

      岳新欣  发表于 2016-03-18 08:55:29
  • urllib.error.URLError: <urlopen error [WinError 10061] 由于目标计算机积极拒绝,无法连接。这个错误如何解决
    jingouwangzi  发表于 2016-04-28 13:41:34
    推荐
    • 这个要修改发送HTTP HEAD,模拟浏览器登录!

      ifelif  发表于 2016-07-19 11:54:33
  • 不建议初学者购买这本书,书中代码很多错误,初学者会抓狂的,我都考虑放弃这本书了。
    Rayer  发表于 2016-08-09 11:12:46
    推荐
    • 我去年就弃过一次了,当时买的是电子版。现在又拿第三次印刷的纸本书开始看了。电子版的错误一直没纠正。。。。。

      说书人  发表于 2017-03-30 15:26:51
    • 是翻译错误还是原版就是错的?

      shawbin  发表于 2017-06-26 16:45:52
    • 我去,我被坑了,这本书真的不好,很多讲都不讲的

      snowx  发表于 2018-01-12 21:25:52
  • 好期待,现在正在用Python+Selenium做爬虫,爬取动态网页的数据,这本书来得很及时啊。
    罗世伟  发表于 2016-03-01 21:49:01
    推荐
  • 好想看,好想看,好想看,好像现在就看,电子版
    Taipa  发表于 2016-03-12 03:14:28
    推荐
  • 能买了!能买了!电子版能直接买了!!!
    Taipa  发表于 2016-03-18 11:37:25
    推荐
  • 电子版先上架了,赞一个,虽然已经看上英文版了
    张宁宁  发表于 2016-03-22 18:14:24
    推荐