译者序

译者序

大数据是近几年广受关注的一个概念。今天,互联网不断发展,逐渐深入我们生活的各个层面,随之而来的是数据量的指数级增长。很久以前,人类就学会了通过分析数据获取有价值的结论。有时,影响结论的因素过多,采样的数据无法有效保留所有因素的影响,得出的结论就不够有效。如果不使用采样,而原始数据规模巨大,我们就需要改进数据处理的手段。从人工统计到利用一些传统的计算机软件进行分析,再到 MapReduce 模型,随着数据规模不断增长,我们处理数据的方式也在不断升级。如今,硬件产业的不断发展使得内存计算成为了可能,Spark 由此出现,并且像它的名字一样,以星火之势,迅速赢得了工业界的青睐。

《Spark 快速大数据分析》是一本为 Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于 Spark 的用法,它对 Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。

Spark 只是一个通用计算框架,利用 Spark 实现的应用才是其真正价值所在。我们很欣慰地看到,国内的许多知名互联网公司已经利用 Spark 创造出了难以估量的价值。本书的读者不妨也尝试把 Spark 应用到实践中,去探寻数据海洋里的无尽瑰宝。

本书得以完成,离不开各方支持。感谢人民邮电出版社图灵公司的李松峰老师、岳新欣老师、张曼老师,他们为本译稿的出版提供了大力支持。感谢本人所在的英特尔亚太研发有限公司大数据团队,其中程浩、孙锐、俞育才、张李晔分别负责了本书各部分的审校工作,黄洁、邵赛赛、史鸣飞也为本书的翻译工作提供了帮助。感谢 Databricks 的连城学长,他促成了我与出版社的合作。在翻译的过程中,来自家人与朋友的理解和支持也让我深深感动。

如本书所述,Spark 是一个大一统的软件栈,涉及方方面面的知识,为本书的翻译增加了不少难度。尽管译者一直努力保证翻译的准确性,由于学识有限,难免会有疏忽之处。而大数据作为一门新兴学科,许多术语尚未有约定俗成的译法。Spark 也在不断发展中,本书英文稿是根据 Spark 1.2 编纂,而译者也尽量标注了直至 Spark 1.4 为止(翻译时的最新版本)引入的一些变化。如果读者发现了本书中的不足或错误之处,恳请批评指正。我的电子邮箱是:me@daoyuan.wang。

王道远

2015 年夏

目录