自从在加州大学伯克利分校创立 Spark 项目起,我就时常心潮澎湃。不仅因为 Spark 可以帮助人们快速构建并行系统,更因为 Spark 帮助了越来越多的人使用大规模计算。因此看到这本介绍 Spark 高级分析的书,我非常欣慰!该书由数据科学领域 4 位专家桑迪、于里、肖恩和乔希携手打造。4 位作者研习 Spark 已久,他们在本书中跟读者分享了关于 Spark 的大量精彩内容,同时本书的案例部分同样出众!

对于这本书,我最钟爱的是它强调案例,而且这些案例都源于现实数据和实际应用。找到 1 个像样的、能在笔记本电脑上运行的大数据案例已经很难,更遑论 10 个了。但本书作者做到了!作者为大家准备好了一切,只等你在 Spark 中运行它们。更难能可贵的是,作者不仅讨论了核心算法,更倾心于数据准备和模型调优,没有这些工作,实际项目中就无法得到好的结果。认真研读此书,你应该可以吸收这些案例中的概念并直接将其运用在自己的项目中!

大数据处理无疑是当今计算领域最激动人心的方向之一,发展非常迅猛,新思想层出不穷。愿本书能帮助你在这个崭新的领域中扬帆启航!

Matei Zaharia

Databricks 公司 CTO 兼 Apache Spark 项目副总裁

目录

  • 版权声明
  • O'Reilly Media, Inc. 介绍
  • 推荐序
  • 译者序
  • 前言
  • 第 1 章 大数据分析
  • 第 2 章 用 Scala 和 Spark 进行数据分析
  • 第 3 章 音乐推荐和 Audioscrobbler 数据集
  • 第 4 章 用决策树算法预测森林植被
  • 第 5 章 基于 K 均值聚类的网络流量异常检测
  • 第 6 章 基于潜在语义分析算法分析维基百科
  • 第 7 章 用 GraphX 分析伴生网络
  • 第 8 章 纽约出租车轨迹的空间和时间数据分析
  • 第 9 章 基于蒙特卡罗模拟的金融风险评估
  • 第 10 章 基因数据分析和 BDG 项目
  • 第 11 章 基于 PySpark 和 Thunder 的神经图像数据分析
  • 作者介绍
  • 封面介绍