第8章 Hive:数据的关系视图

MapReduce是一个功能强大的数据处理范式,能从复杂的数据处理过程中凝练出宝贵的结论。但是,它把数据处理分析过程拆分成一系列map和reduce阶段,需要用户接受这种理念,进行相应的训练并有一定的经验。借助一些建立在Hadoop基础上的产品,用户能从更高或更熟悉的角度理解存储在HDFS上的数据。本章将介绍其中最流行的一款工具,它就是Hive。

本章包括以下内容:

  • 什么是Hive以及使用Hive的原因;

  • 如何安装并配置Hive;

  • 使用Hive对UFO数据集执行类SQL分析;

  • Hive与关系数据库的共同特点,如联结和视图;

  • 怎样有效地将Hive应用于特大数据集;

  • Hive如何在查询语句中融入用户自定义函数;

  • Hive与另一款常用工具Pig的互补关系。