序二

序二

从2003年开始,谷歌先后发表了关于GFS、MapReduce和BigTable的3份重量级论文。在Apache软件基金会和雅虎等互联网公司的支持下,人们在参考谷歌的论文基础上实现了大量的开源服务框架(包括著名的Hadoop、Hive等重量级产品),特别是开源项目Hadoop的出现揭开了在IT行业,特别是互联网行业内大规模使用大数据技术的序幕。随着最近几年海量数据的持续增长和计算机硬件的发展,越来越多的新架构也涌现出来。从2010年开始,美国加州大学伯克利分校陆续提出了多份RDD(Resilient Distributed Dataset,弹性分布式数据集)相关的论文,并随之推出开源的Spark框架。对比传统的Hadoop,拥有深厚学术界背景的Spark把以往的MapReduce、流式计算、机器学习算法等模型全部统一起来,让数据挖掘和机器学习的门槛大大降低,从而加速了大数据技术在各个行业和产品里面的普及。

手机QQ浏览器的大数据开发模式同样符合这种演进趋势。2011年,我们主要基于MapReduce模式和Hive进行一些海量数据的分析和统计工作,而数据挖掘算法依然沿用传统的C++和MPI框架方式。随着这两年Spark版本的不断更新和功能的逐步强大,我们已经开始用Scala和Spark自带的MLlib实现多个数据挖掘模型。由于使用了统一的RDD和MLlib,我们可以快速实现各种算法模型,并在它们之间更灵活地进行切换和对比,这也体现了互联网快速迭代开发的效率和ABTest的思维模式。

最近的一年里面,世飞负责的广点通项目和手机QQ浏览器有深入的技术和产品层面的合作,广点通的广告推荐投放在手机浏览器里面也取得了非常好的效果。在工作交流和讨论的过程中,我深深体会到世飞在数据挖掘算法上的深厚功力,以及在Spark技术上追求极致的精神。这次有机会拜读世飞和陈欢所著的书稿,最大的体会是与市面上大量的手册型图书不同,本书不仅可以让读者逐步掌握Spark的核心概念和流程,而且得以吸取大数据业务特定场景下的实战经验。这些真正经过海量用户考验的行业案例,对于大数据的学习人员来说都传递着非常宝贵的经验。最后,衷心希望本书可以在为每一位读者带来Spark底层技术知识的同时,更好地让Spark普及到更多的大数据应用场景当中。

 

徐羽

手机QQ浏览器总监、腾讯T4技术专家

目录

  • 序一
  • 序二
  • 前言
  • 第 1 章 Spark与大数据
  • 第 2 章 Spark基础
  • 第 3 章 Spark工作机制
  • 第 4 章 Spark内核讲解
  • 第 5 章 Spark SQL与数据仓库
  • 第 6 章 Spark流式计算
  • 第 7 章 Spark图计算
  • 第 8 章 Spark MLlib
  • 附录 Scala语言参考