译者序

译者序

大数据是这几年科技和应用领域炙手可热的话题,而 Spark 又是大数据领域里最活跃的技术。随着人工智能的崛起,业内对大数据的需求不再局限于一般意义上的大数据存储、加工和分析,如何挖掘大数据的潜在价值成为新的热点。本书四位作者均在 Cloudera 公司担任过数据科学家,长期为客户提供专业的数据分析和挖掘服务。可以说,本书的出版将为 Spark 在数据分析和挖掘领域起到巨大的推动作用。

同时我们也注意到,国内介绍 Spark 数据分析方面的图书还比较匮乏,而且许多图书都停留在源代码研究的层面上。当然,这些书中也不乏非常优秀的作品,但我们认为 Spark 真正的力量在于其开发的大数据应用。所以早在本书还处于初期编写过程中时,我们就自告奋勇和作者联系中文版事宜,希望以此为中国的大数据分析事业略尽绵力。

本书在翻译过程中得到了许多人的帮助。首先要感谢我在 Cloudera 公司的前同事,也就是本书的 4 位作者。在本书的翻译过程中,由于不同语言的习惯问题,4 位作者桑迪 • 里扎、于里 • 莱瑟森、肖恩 • 欧文和乔希 • 威尔斯花了许多时间和我交流。本人之所以有幸负责本书的中文版翻译,也是承蒙肖恩 • 欧文的引荐。其次要感谢星环信息科技有限公司创始人孙元浩先生将我带入到大数据这个领域,让我的人生轨迹发生变化;感谢思科中国研发公司首席技术官苗凯翔博士在英特尔和 Cloudera 工作期间曾经给我的指导,让我有了端正的工作态度和价值观;感谢我的前同事田占凤博士和陈建忠的鼓励,中文版的翻译工作才得以开始。同时本书在翻译过程中还得到了 Cloudera 公司中国区前同事刘贺峰、糜君、陈飚、陈新江、李大超和张莉苹的鼎力帮助。感谢图灵公司的李松峰、岳新欣、温雪编辑在翻译过程中的指导和仔细审阅。由于本书的翻译都是在周末完成的,所以特别感谢我的妻子周幼琼在每个周末对我的照顾。

龚少成

首先非常感谢龚少成给我这次机会,使我有幸成为本书第 2 版的译者之一。

其次要感谢英特尔大数据团队的同事们,是你们带领我走进了 Spark 的时代。

最后要感谢我的妻子和孩子对我工作的理解和支持,让我腾出业余时间完成此次翻译工作。

由于译者水平有限,同时本书涉及许多课题,所以现有译文中难免存在纰漏之处。希望读者能够不吝赐教,发现问题时麻烦和译者联系。邮件请发送至 gongshaocheng@gmail.comqiuxin2012cs@gmail.com

邱鑫

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 推荐序
  • 译者序
  • 前言
  • 第 1 章 大数据分析
  • 第 2 章 用 Scala 和 Spark 进行数据分析
  • 第 3 章 音乐推荐和 Audioscrobbler 数据集
  • 第 4 章 用决策树算法预测森林植被
  • 第 5 章 基于 K 均值聚类的网络流量异常检测
  • 第 6 章 基于潜在语义分析算法分析维基百科
  • 第 7 章 用 GraphX 分析伴生网络
  • 第 8 章 纽约出租车轨迹的空间和时间数据分析
  • 第 9 章 基于蒙特卡罗模拟的金融风险评估
  • 第 10 章 基因数据分析和 BDG 项目
  • 第 11 章 基于 PySpark 和 Thunder 的神经图像数据分析
  • 作者介绍
  • 封面介绍