推荐序

推荐序

数据的爆炸式增长和隐藏在这些数据背后的商业价值催生了一代又一代的大数据处理技术。十余年前 Hadoop 横空出世,Doug Cutting 先生将谷歌的 MapReduce 思想用开源的方式实现出来,由此拉开了基于 MapReduce 的大数据处理框架在企业中应用的序幕。近年来,Hadoop 生态系统又发展出以 Spark 为代表的新计算框架。相比 MapReduce,Spark 速度快,开发简单,并且能同时兼顾批处理和实时数据分析。Spark 起源于加州大学伯克利分校的 AMPLab,Cloudera 公司作为大数据市场上的翘楚,很早就开始将 Spark 推广到广大企业级客户并积累了大量的经验。Advanced Analysis with Spark 一书正是这些经验的结晶。另一方面,企业级用户在引入 Spark 技术时碰到的最大难题之一就是能够灵活应用 Spark 技术的人才匮乏。龚少成与图灵公司将 Advanced Analysis with Spark 翻译成中文,让国内读者第一时间用母语感受 Spark 这一新技术在数据分析和处理方面的魔力,实在是国内技术圈的幸事。能为本书作序推荐,也算是为国内企业更好地应用 Spark 技术尽自己的一份力量!

本书开篇介绍了 Spark 的基础知识,然后详细介绍了如何将 Spark 应用到各个行业。与许多图书只着重描述最终方案不同,本书作者在介绍案例时把解决问题的整个过程也展现了出来。在介绍一个主题时,并不是一开始就给出最终方案,而是先给出一个最初并不完善的方案,然后指出方案的不足,引导读者思考并逐步改进,最终得出一个相对完善的方案。这体现了工程问题的解决思路,也体现了大数据分析是一个迭代的过程。这样的论述方式更能激发读者的思考,这一点实在难能可贵。

本书英文版自第 1 版出版以来,在亚马逊网站大数据分析类图书中一直名列前茅,而且获得的多为五星级评价,可见国外读者对该书的喜爱。本书中文版译者龚少成技术扎实,在英特尔和 Cloudera 工作期间带领团队成功实施过许多国内标杆大数据平台项目,最近两年又转战万达科技集团大数据中心从零到一构建 PB 级大数据平台并支撑业务落地,而且其英语功底也相当扎实,此外我偶然得知他还是国内少数通过高级口译考试的专业人才。所以本书的中文版交给龚少成翻译实在是件让人欣慰的事情。本书中文版初稿也证实了我的判断,不仅保持了英文版的风格,而且语言也十分流畅。如果你了解 Scala 语言,还有一些统计学和机器学习基础,那么本书是你学习 Spark 时必备的图书之一!

——苗凯翔,思科中国研发公司首席技术官,前 Cloudera 公司副总裁

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 推荐序
  • 译者序
  • 前言
  • 第 1 章 大数据分析
  • 第 2 章 用 Scala 和 Spark 进行数据分析
  • 第 3 章 音乐推荐和 Audioscrobbler 数据集
  • 第 4 章 用决策树算法预测森林植被
  • 第 5 章 基于 K 均值聚类的网络流量异常检测
  • 第 6 章 基于潜在语义分析算法分析维基百科
  • 第 7 章 用 GraphX 分析伴生网络
  • 第 8 章 纽约出租车轨迹的空间和时间数据分析
  • 第 9 章 基于蒙特卡罗模拟的金融风险评估
  • 第 10 章 基因数据分析和 BDG 项目
  • 第 11 章 基于 PySpark 和 Thunder 的神经图像数据分析
  • 作者介绍
  • 封面介绍