序一

序一

随着互联网的快速发展,特别是云计算的普及,大数据日益受到人们的重视,最近几年全球数据量以每年约50%的速度递增。大数据正在事实上改变着我们的思维和生产方式,未来人类社会的精神和物质世界都将构建在数据之上。2015年9月,国务院印发《促进大数据发展行动纲要》,确定了大数据发展的国家顶层设计,大数据与各行各业的结合已是行业未来发展的必然趋势。大数据在中国已经全面生根发芽,大数据创业企业也迎来了一波新的发展机会。

学习大数据技术、使用大数据技术为各行各业服务是每个IT人都梦寐以求的事情。在中国,BAT的大数据员工是最幸运的一群人,因为他们手上拥有最多的数据,能利用海量的服务器资源捣腾海量的数据。

我的老朋友林世飞先生和陈欢先生正是这样的幸运者,他们刚毕业就加入了腾讯,在腾讯多个部门工作学习锻炼过,每天接触的都是上亿用户的数据处理。而现在他们又在腾讯发展最快速的部门——社交与效果广告部,负责大数据处理和分析的相关工作,利用成规模的Spark集群来做海量数据的处理,根据用户的画像给用户推荐个性化的广告。除此之外,林世飞和陈欢本身有着爱钻研的性格,他们成立了学习小组,拿着各种大数据技术的“锤子”,敲打着各种内外部的大数据“钉子”,来仔细分析、对比各种技术的差异点以及特性。在此基础上,他们总结成书,从运行原理到实际案例分析,覆盖了流式计算、数据仓库、图计算、机器学习等算法应用。在我看来,这应该是国内第一本兼顾基础,针对Spark的典型应用都做了案例讲解的实践书,对于创业公司快速搭建大数据系统,以及科研院校学生的毕业设计的实战项目帮助意义很大。

丰富的大数据实践经验、对大数据深入的思考,这是本书的两大特点,也是林世飞先生和陈欢先生严谨工作、对技术深入研究的体现,希望他们付出的心血能为每一位读者带来价值,使大家深入地了解Spark的工作原理、掌握好Spark的优势,为日常工作创造更大的价值。

 

季昕华

UCloud联合创始人兼CEO

目录

  • 序一
  • 序二
  • 前言
  • 第 1 章 Spark与大数据
  • 第 2 章 Spark基础
  • 第 3 章 Spark工作机制
  • 第 4 章 Spark内核讲解
  • 第 5 章 Spark SQL与数据仓库
  • 第 6 章 Spark流式计算
  • 第 7 章 Spark图计算
  • 第 8 章 Spark MLlib
  • 附录 Scala语言参考