大数据是这几年科技和应用领域炙手可热的话题,而Spark又是大数据领域里最活跃的技术。对Spark这个技术,国内研究比较多的是原理和源代码,而许多客户抱怨Spark应用落地难。造成这一现象的一个主要原因是Spark技术比较新,许多应用还处在探索阶段。Cloudera公司作为全球大数据领域的领头羊,在给全球客户提供最高质量大数据平台的同时,也积累了许多Spark应用方面的宝贵经验。本书四位作者均为Cloudera公司的数据科学家,也长期为客户提供专业的数据分析服务。可以说,本书的出版将为Spark数据分析项目的落地起到巨大的推动作用。

同时我也注意到,国内Spark数据分析方面的书籍少,而且许多书籍都停留在源代码研究的层面上。当然,这些书中也不乏非常优秀的作品,但我认为Spark真正的力量在于其开发的大数据应用。所以早在本书还处于初期编写过程中时,我就自告奋勇和作者联系中文版事宜,希望以此为中国的大数据分析事业略尽绵力。 本书在翻译过程中得到了许多人的帮助。首先要感谢我在Cloudera公司的同事,也就是本书的四位作者。在本书的翻译过程中,由于不同语言的习惯问题,四位作者Sandy Ryza、Uri Laserson、Sean Owen和Josh Wills花了许多时间和我交流。本人之所以有幸负责本书的中文版翻译,也是承蒙Sean Owen的引荐。感谢Cloudera公司全球副总裁凌琦先生和苗凯翔博士,没有两位领导的努力,Cloudera中国区团队不可能如此迅速组建并形成如此强大的战斗力,我也无法参与到轰轰烈烈的大数据事业中。感谢我的同事田占凤博士和陈建忠的鼓励,中文版的翻译工作才得以开始。英特尔亚太研发公司工程师邱鑫对本书初稿的修改贡献了许多宝贵建议。同时本书在翻译过程中还得到了Cloudera公司中国区同事刘贺峰、糜君、陈飚、陈新江、李大超和张莉苹的鼎力帮助。感谢图灵公司的李松峰编辑和岳新欣编辑在翻译过程中的指导和仔细审阅。由于本书的翻译都是在周末完成的,所以要特别感谢我的妻子周幼琼在每个周末对我的照顾。

由于本人的水平有限,同时本书涉及许多课题,所以现有译文中难免存在纰漏之处。希望读者能够不吝赐教,发现问题时麻烦和我联系。邮件请发送至gongshaocheng@gmail.com。

龚少成

2015 年7 月于上海