O'Reilly Media, Inc. 介绍

O'Reilly Media, Inc. 介绍

O'Reilly Media 通过图书、杂志、在线服务、调查研究和会议等方式传播创新知识。自 1978 年开始,O'Reilly 一直都是前沿发展的见证者和推动者。超级极客们正在开创着未来,而我们关注真正重要的技术趋势——通过放大那些“细微的信号”来刺激社会对新科技的应用。作为技术社区中活跃的参与者,O'Reilly 的发展充满了对创新的倡导、创造和发扬光大。

O'Reilly 为软件开发人员带来革命性的“动物书”;创建第一个商业网站(GNN);组织了影响深远的开放源代码峰会,以至于开源软件运动以此命名;创立了 Make 杂志,从而成为 DIY 革命的主要先锋;公司一如既往地通过多种形式缔结信息与人的纽带。O'Reilly 的会议和峰会集聚了众多超级极客和高瞻远瞩的商业领袖,共同描绘出开创新产业的革命性思想。作为技术人士获取信息的选择,O'Reilly 现在还将先锋专家的知识传递给普通的计算机用户。无论是通过书籍出版、在线服务或者面授课程,每一项 O'Reilly 的产品都反映了公司不可动摇的理念——信息是激发创新的力量。

业界评论

“O'Reilly Radar 博客有口皆碑。”

——Wired

“O'Reilly 凭借一系列(真希望当初我也想到了)非凡想法建立了数百万美元的业务。”

——Business 2.0

“O'Reilly Conference 是聚集关键思想领袖的绝对典范。”

——CRN

“一本 O'Reilly 的书就代表一个有用、有前途、需要学习的主题。”

——Irish Times

“Tim 是位特立独行的商人,他不光放眼于最长远、最广阔的视野,并且切实地按照 Yogi Berra 的建议去做了:‘如果你在路上遇到岔路口,走小路(岔路)。’回顾过去,Tim 似乎每一次都选择了小路,而且有几次都是一闪即逝的机会,尽管大路也不错。”

——Linux Journal

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 译者序
  • 前言
  • 第一部分 创建爬虫
  • 第 1 章 初见网络爬虫
  • 第 2 章 复杂 HTML 解析
  • 第 3 章 开始采集
  • 第 4 章 使用 API
  • 第 5 章 存储数据
  • 第 6 章 读取文档
  • 第二部分 高级数据采集
  • 第 7 章 数据清洗
  • 第 8 章 自然语言处理
  • 第 9 章 穿越网页表单与登录窗口进行采集
  • 第 10 章 采集 JavaScript
  • 第 11 章 图像识别与文字处理
  • 第 12 章 避开采集陷阱
  • 第 13 章 用爬虫测试网站
  • 第 14 章 远程采集
  • 附录 A Python 简介
  • 附录 B 互联网简介
  • 附录 C 网络数据采集的法律与道德约束
  • 作者简介
  • 封面介绍