致谢

早在加入Hortonworks公司之前,我就想写一本关于Hive的书。那时候有关Hive的书比较少,而且我看过的一些虽然技术讲得很好,但是并不面向普通用户,尤其是来自关系数据库领域的用户。到Hortonworks公司工作以后,我感到坐下来写这本书变得容易多了。我的手边有最优秀的资源,而且可以接触到一些我所见过的最聪明的人。我认识了像艾伦•盖茨这样的Hive代码提交者,他们会毫不犹豫地回复邮件或者花点时间跟我在会议上交流。我与世界上最棒的解决方案工程师团队建立了友谊并且得到了他们的支持。然而过了近两年半,我还是没有写完这本书。

我没有预料到这个市场的发展速度如此之快,也没有预料到整个团队为客户提供解决方案需要投入大量时间。这确实是一项令人钟爱的工作,但是为了兼顾工作和家庭,我不得不将这本书的写作一再拖延,而且拖了很长一段时间。我想其他任何一家出版社都会放弃我再找别人,但是Apress出版社一直在耐心等待(虽然我不能说他们一点都没有退却,而且理应如此),并且坚信总有一天我们会写出一本书来。

写一本关于Hive的书,其艰难之处在于:如果你的写作中断了6个月,那么你就要写一本新书了。我意识到这并不是一个人能够完成的工作,我需要帮助。安库尔是首先站出来帮助我的人。如果没有他的坚持和奉献,就不会有这本书。也是安库尔使我们与安德烈亚斯取得了联系,我相信安库尔会同意,如果没有安德烈亚斯令人惊叹的写作能力和知识水平,也不会有这本书,至少这本书会更薄一些,你从中获得的信息量会大大减少。最后,感谢戴维,他确定了本书的技术重点,对于去冗存精起到了至关重要的作用,指引我们一路向前。

还有其他很多人在自己有限的时间里尽己所能地提供了帮助。微软CAT团队的辛迪•格罗斯在早期曾经参加了本书的撰写,帮助推动这个项目前进。感谢安西尔承担了非常必要的技术审校工作——尤其是对我所撰写的章节。要特别感谢Hortonworks公司,它不仅仅支持本书的撰写,而且发自肺腑地为此激动不已。Hortonworks团队并不仅仅因为这是一本关于Hive的书而激动,他们是为我们这个作者团队所取得的成就而激动。我从未被迫在工作和这本书之间做出选择,专心本职工作是我自己的选择。

最后,感谢我的家人。我的孩子们可能根本不需要Hive,但是我知道,他们认为爸爸能参与撰写一本书是一件非常酷的事。从英语专业的学生到一家开源大数据公司的解决方案工程师,而且能够撰写技术类图书,这是一段很长的成长之旅。环顾四周,我感到非常知足。再次重申,我与业界最聪明的人一起工作,虽然他们的才智我难以望其项背,但是我深知,他们的集体智慧和见解会使我成为一个更加优秀的人。

——斯科特•肖

目录

  • 前言
  • 致谢
  • 第1章 为Hive打好基础:Hadoop 
  • 第2章 Hive简介
  • 第3章 Hive架构
  • 第4章 Hive表DDL
  • 第5章 数据操作语言
  • 第6章 将数据装载到Hive
  • 第7章 查询半结构化数据
  • 第8章 Hive分析
  • 第9章 Hive性能调优
  • 第10章 Hive的安全性
  • 第11章 Hive的未来
  • 附录A 建立大数据团队
  • 附录B Hive函数