推荐序一

推荐序一

Hadoop作为MapReduce的一个具体实现,已经引起了广泛关注。

今天在商业、科研等方面海量数据处理的需求已经越发普遍,开源的Hadoop成为自然而又合理的选择。

“给我一个参数,我能让大象的尾巴转起来。”Hadoop可以帮助我们应对海量数据存储与分析所带来的挑战。Hadoop具有很好的可扩展性、可靠性,且易于理解和使用。本书作者是一位从事数据工作多年的架构师,在大数据的架构及应用上具有非常丰富的经验,并且发表了不少相关的主题演讲。本书从Hadoop的发展历程开始,介绍了Hadoop 2.0版本带给大家的惊喜。其中不仅包括了Yarn、Pig、Hive等各个组件的高阶应用,而且还对如何在Yarn上引入其他计算框架(如Storm)进行了描述,这也为读者今后在实践中自行引入Tez、Spark等现在流行的计算框架打下了基础。除此以外,本书还包含了很多企业级应用中不可缺少的功能,如云、联合、安全等。而对于上述这些内容,书中既有准确的说明,又有翔实的示例。更为宝贵的是,作者将自己在10多年的项目中所积累的经验归纳总结并书写下来,对于广大读者来说,这是十分珍贵的财富。

本书原著是用英文写作的,它的内容组织得当,思路清晰,紧密结合实际。但是要把它翻译成中文介绍给中国的读者,并非易事。它不单单要求译者能够熟练地掌握英文,还要求他对书中的技术性内容有深入、准确的了解和掌握。本书的三位译者,在知名的互联网公司中从事着大数据架构师的工作,负责数百台规模的Hadoop集群的架构设计以及运营,对于Hadoop生态圈的各个组件有着非常丰富的实践经验,同时在开源社区中也很活跃。在他们的努力下,本书中文版终于要和中国的Hadoop开发者见面了。初学者可以通过阅读这本书入门,有一定经验的开发者、研究者也可以通过阅读这本书更上一层楼。希望大家可以通过阅读这本书获得收获。

 

春秋航空信息技术部副总经理  张振远

2015.9.8

目录

  • 版权声明
  • 推荐序一
  • 推荐序二
  • 译者序
  • 前言
  • 致谢
  • 第 1 章 Hadoop 2.X
  • 第 2 章 MapReduce进阶
  • 第 3 章 Pig进阶
  • 第 4 章 Hive进阶
  • 第 5 章 序列化和Hadoop I/O
  • 第 6 章 YARN——其他应用模式进入Hadoop的引路人
  • 第 7 章 基于YARN的Storm——Hadoop中的低延时处理
  • 第 8 章 云上的Hadoop
  • 第 9 章 HDFS替代品
  • 第 10 章 HDFS联合
  • 第 11 章 Hadoop安全
  • 第 12 章 使用Hadoop进行数据分析
  • 附录 微软Windows中的Hadoop