Spark 作为下一代大数据处理引擎,在非常短的时间里崭露头角,并且以燎原之势席卷业界。Spark 对曾经引爆大数据产业革命的 Hadoop MapReduce 的改进主要体现在这几个方面:首先,Spark 速度更快;其次,Spark 丰富的 API 带来了更强大的易用性;最后,Spark 不单单支持传统批处理应用,更支持交互式查询、流式计算、机器学习、图计算等各种应用,满足各种不同应用场景下的需求。

我很荣幸能够一直密切地参与到 Spark 的开发中,伴随 Spark 一路走来,看着 Spark 从草稿纸上的原型成长为当下最活跃的大数据开源项目。如今,Spark 已经成为 Apache 基金会下最为活跃的项目之一。不仅如此,我也为结识 Spark 项目创始人 Matei Zaharia 以及其他几位 Spark 长期开发者 Patrick Wendell、Andy Konwinski 和 Holden Karau 感到由衷高兴。正是他们四位完成了本书的著作工作。

随着 Spark 的迅速流行,相关优秀参考资料匮乏的问题顿时突显出来。本书共有 11 章,包含许多专为渴望学习 Spark 的数据科学家、学生、开发者们设计的具体实例,大大缓解了 Spark 缺少优秀参考资料的问题。即使是没有大数据方面背景知识的读者,也可以把本书作为入门大数据领域的明智之选。我真挚地希望这本书能引领你和其他读者走进大数据这个令人激动的新领域,在多年之后依然令你回味无穷。

——Databricks 公司首席执行官,加州大学伯克利分校 AMPlab 联合主任 Ion Stoica

目录