译者序

译者序

“数据爆炸的时代已经来临了吗?”毫无疑问,答案是肯定的。随着移动互联的普及,数据已经呈指数倍增长。但是,我们注意到此轮爆炸的数据大多来自社交及电商类。随着工业互联网的发展,越来越多的数据以及新鲜概念会出现在我们的生活中,并改变我们的生活。试想一下,如冰箱、空调、电视之类的家用电器触网以后,每时每刻向制造商或是内容提供商传输数据的场面;你所穿戴的鞋服,你所乘坐的交通工具,你所居住的智能楼宇,将来你周围的一切一切,包括衣食住行,每时每刻都会产生并传输着各种各样的数据。那时的数据规模将会是如何之庞大,不敢想象,而现在,爆炸才刚刚开始。

“你,做好准备了吗?”每当想到刚才所言的场面时,都会有点儿小怕,但更多的是激动和兴奋,因为我们身处这波浪潮之中。我们迎着风,踏着浪,朝着浪潮的巅峰前进。为此,我们必须有所准备,我们学习如何收集这些海量的数据,如何清洗、转换、分析它们,并最终形成有用的信息,希望能反馈给这个世界。古人云,工欲善其事,必先利其器。而我们的利器就是Hadoop。作为开源的分布式通用计算平台,该系统已被广泛采用。围绕着Hadoop的生态圈,我们可以轻松地完成之前所说的各种工作,并愿意将它推荐给更多的人来使用。

年中,当我们接触到Mastering Hadoop一书时,就决定要将它尽快翻译成中文并出版。因为这本书中不仅包含了很多Hadoop重要组件的最新特性,更关键的是它还包含了很多作者在职业生涯中通过各种项目所积累的最佳实践和建议。这些最佳实践和建议,即使是我们这些长期与Hadoop打交道的人也觉得获益匪浅。所以我们也希望这本书能为广大的Hadoop使用者和对大数据感兴趣的人提供帮助。

本书主要分为12章和1个附录。参加本书翻译工作的还有唐觊隽和陈智威两位同事,其中第1、2、6、12章由陈智威翻译,第4、5、8、9、10章以及附录由唐觊隽翻译。他们以自己的专长和领域知识,为本书提供了相应章节的内容翻译。

最后要感谢我们的家人、同事给予的支持,使得我们能够按时完成翻译。感谢图灵公司对我们的信任,将本书的翻译工作交付给我们。感谢所有参与本书编辑、审校和出版的每个人。

刘淼@1号店

2015年10月于上海浦东

目录

  • 版权声明
  • 推荐序一
  • 推荐序二
  • 译者序
  • 前言
  • 致谢
  • 第 1 章 Hadoop 2.X
  • 第 2 章 MapReduce进阶
  • 第 3 章 Pig进阶
  • 第 4 章 Hive进阶
  • 第 5 章 序列化和Hadoop I/O
  • 第 6 章 YARN——其他应用模式进入Hadoop的引路人
  • 第 7 章 基于YARN的Storm——Hadoop中的低延时处理
  • 第 8 章 云上的Hadoop
  • 第 9 章 HDFS替代品
  • 第 10 章 HDFS联合
  • 第 11 章 Hadoop安全
  • 第 12 章 使用Hadoop进行数据分析
  • 附录 微软Windows中的Hadoop