推荐序二

推荐序二

近年来,随着“互联网+”行动计划的提出,互联网业态进一步繁荣,信息技术正以迅雷不及掩耳之势把信息转化为数据,但是人们如何利用好这些庞大的数据,挖掘其价值呢?古人云:“工欲善其事,必先利其器。”Hadoop正是解决数据处理问题的一把利器。Hadoop发展至今已相当成熟,可以说用好Hadoop,就能在“互联网+”时代中立于不败之地。

但是要驾驭好Hadoop这头大象并非易事。虽然Hadoop有强大的社区作为依托,用户可以从社区获得一些帮助,但是缺少文档描述,信息零碎,各种最佳实践散落在互联网的各个角落。而本书可以作为Hadoop的权威资料,其内容详实,涵盖了Hadoop生态圈的各个重要组件,如Hive、Pig、Storm,对于这些组件的介绍由浅入深,如Hive方面不但介绍了如何使用,还讲解了SQL优化器等内容。本书作者还紧跟技术发展潮流,对Hadoop 2的一些新特性也有深入讲解,如YARN、HDFS块放置策略等,读者可通过这些内容迅速掌握新特性,有助于在今后的工作中更好地使用Tez、Spark等新型计算引擎。此外,本书还详细介绍了一些企业级特性,比如Hadoop Security,这些内容对于安全地保护企业数据资产很有帮助。本书最后还介绍了亚马逊AWS和微软Azure提供的Hadoop云服务,读者可以学到如何在云服务上迅速搭建Hadoop集群。除以上内容之外,作者还在书中融入其多年的工作经验,这些经验可以说是无价之宝,如小文件问题的处理、任务的优化等,可以帮助Hadoop用户少走弯路,降低使用风险。总之,此书与众不同,在理论和应用之间找到了一个绝佳的平衡点。掌握Hadoop,有此书足矣。

另外,本书的译者,在他们的公司中运维着大型Hadoop集群,对于Hadoop、Hive、Tez、Spark等都有着丰富的应用经验,并且在Tez、Hive等开源社区中也很活跃。通过他们的翻译,可以说本书中文版的内容做到了信、达。我相信本书对于Hadoop使用者和开发者来说都是一份珍贵的资料。

 

Apache Tez PMC 章剑锋

2015.10.23

目录

  • 版权声明
  • 推荐序一
  • 推荐序二
  • 译者序
  • 前言
  • 致谢
  • 第 1 章 Hadoop 2.X
  • 第 2 章 MapReduce进阶
  • 第 3 章 Pig进阶
  • 第 4 章 Hive进阶
  • 第 5 章 序列化和Hadoop I/O
  • 第 6 章 YARN——其他应用模式进入Hadoop的引路人
  • 第 7 章 基于YARN的Storm——Hadoop中的低延时处理
  • 第 8 章 云上的Hadoop
  • 第 9 章 HDFS替代品
  • 第 10 章 HDFS联合
  • 第 11 章 Hadoop安全
  • 第 12 章 使用Hadoop进行数据分析
  • 附录 微软Windows中的Hadoop