Spark高级数据分析(第2版)
2推荐 收藏
27.0K阅读
图灵程序设计丛书

Spark高级数据分析(第2版)

[美] 桑迪·里扎 , [美] 于里·莱瑟森 , [英] 肖恩·欧文 , [美] 乔希·威尔斯 (作者) 龚少成 , 邱鑫 (译者)
涵盖大规模数据分析中常用算法、数据集和设计模式
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。新版Spark使用了全新的核心API,MLlib和Spark SQL两个子项目也发生了较大变化,本书为关注Spark发展趋势的读者提供了与时俱进的资料,例如Dataset和DataFrame的使用,以及与DataFrame API高度集成的Spark ML API。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

电子书
¥34.99
格式
mobi   pdf

纸质书
¥54.51 ¥69.00

出版信息

  • 书  名Spark高级数据分析(第2版)
  • 系列书名图灵程序设计丛书
  • 执行编辑关于本书的内容有任何问题,请联系 温雪
  • 出版日期2018-05-28
  • 书  号978-7-115-48252-5
  • 定  价69.00 元
  • 页  数226
  • 印刷方式单色
  • 开  本16开
  • 出版状态上市销售
  • 原书名Advanced Analytics with Spark: Patterns for Learning from Data at Scale, 2E
  • 原书号9781491972953

所属分类

同系列书

  • HTTP权威指南

    David Gourley   Brian Totty   Marjorie Sayer   Sailu Reddy   Anshu Aggarwal   陈涓   赵振平   译

    本书是HTTP及其相关核心Web技术方面的权威著作,主要介绍了Web应用程序是如何工作的,核心的因特网协议如何...

  • JavaScript高级程序设计(第3版)

    Nicholas C.Zakas   李松峰   曹力   译

    本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...

  • 计算机科学的基础

    Al Aho   Jeff Ullman   傅尔也   译

    本书全面而详细地阐述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...

  • Java技术手册(第6版)

    Benjamin J Evans   David Flanagan   安道   译

    通过学习本书,你将能够: 掌握最新的语言细节,包括Java 8的变化 使用基本的Java句法学习面向对...

  • 机器学习实战

    Peter Harrington   李锐   李鹏   曲亚东   王斌   译

    机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或...

本书特色

作为计算框架,Spark速度快,开发简单,能同时兼顾批处理和实时数据分析,因此很快被广大企业级用户所采纳,并随着近年人工智能的崛起而成为分析和挖掘大数据的重要得力工具。

本书由业内知名数据科学家执笔,通过丰富的示例展示了如何结合Spark、统计方法和真实世界数据集来解决数据分析问题,既涉及模型的构建和评价,也涵盖数据清洗、数据预处理和数据探索,并描述了如何将结果变为生产应用,是运用Apache Spark进行大数据分析和处理的实战宝典。

第2版根据新版Spark最佳实践,对样例代码和所用资料做了大量更新。

本书涵盖模式如下:

● 音乐推荐和Audioscrobbler数据集
● 用决策树算法预测森林植被
● 基于K均值聚类进行网络流量异常检测
● 基于潜在语义算法分析维基百科
● 用GraphX分析伴生网络
● 对纽约出租车轨迹进行空间和时间数据分析
● 通过蒙特卡罗模拟来评估金融风险
● 基因数据分析和BDG项目
● 用PySpark和Thunder分析神经图像数据

目录

版权声明 阅读
O'Reilly Media, Inc. 介绍 阅读
推荐序 阅读
译者序 阅读
阅读
前言 阅读
第 1 章 大数据分析 阅读
第 2 章 用 Scala 和 Spark 进行数据分析
第 3 章 音乐推荐和 Audioscrobbler 数据集
第 4 章 用决策树算法预测森林植被
第 5 章 基于 K 均值聚类的网络流量异常检测
第 6 章 基于潜在语义分析算法分析维基百科
第 7 章 用 GraphX 分析伴生网络
第 8 章 纽约出租车轨迹的空间和时间数据分析
第 9 章 基于蒙特卡罗模拟的金融风险评估
第 10 章 基因数据分析和 BDG 项目
第 11 章 基于 PySpark 和 Thunder 的神经图像数据分析
作者介绍
封面介绍

作者介绍

【作者简介】

桑迪·里扎(Sandy Ryza),Spark项目代码提交者、Hadoop项目管理委员会委员,Time Series for Spark项目创始人。曾任Cloudera公司高级数据科学家,现就职于Remix公司从事公共交通算法开发。

于里·莱瑟森(Uri Laserson),MIT博士毕业,致力于用技术解决遗传学问题,曾利用Hadoop生态系统开发了可扩展的基因组学和免疫学技术。目前是西奈山伊坎医学院遗传学助理教授,曾任Cloudera公司核心数据科学家。

肖恩·欧文(Sean Owen),Spark、Mahout项目代码提交者,Spark项目管理委员会委员。现任Cloudera公司数据科学总监。

乔希·威尔斯(Josh Wills),Crunch项目发起人,现任Slack公司数据工程主管。曾任Cloudera公司高级数据科学总监。


【译者简介】

龚少成
现任万达科技集团数据工程部总经理,清华大学自动化系研究生毕业,国内专注企业级大数据平台建设的先驱者之一,曾经在Intel和Cloudera公司担任大数据技术负责人,Cloudera公司认证大数据培训讲师。

邱鑫
毕业于武汉大学,目前就职于英特尔亚太研发有限公司,是Intel大数据团队高级工程师。主要研究大数据与深度学习技术,是基于Spark的深度学习框架BigDL的核心贡献者。

大家也喜欢

  • Spark机器学习(第2版)

    [印]拉结帝普•杜瓦   [印]曼普利特•辛格•古特拉   [南非]尼克•彭特里思   蔡立宇   黄章帅   周济民   译

    本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...

  • Spark最佳实践

    本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍...

  • Spark高级数据分析

    Sandy Ryza   Uri Laserson   Sean Owen   Josh Wills   龚少成   译

    本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金...

  • Spark快速大数据分析

    Holden Karau   Andy Konwinski   Patrick Wendell   Matei Zaharia   王道远   译

    本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...

  • Spark机器学习

    Nick Pentreath   蔡立宇   黄章帅   周济民   译

    本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。...

  • 买过第一版电子书,买第二版电子书有打折不?
    Cye3s  发表于 2018-05-25 11:16:29
    推荐
    • 同问~

      congyh  发表于 2018-06-21 20:31:29
    • 您好,部分图书的升级版推出后,会给已购旧版电子书的用户发放优惠券,您可关注下社区推送。

      温雪  发表于 2018-06-22 09:36:07
    • @温雪 非常感谢, 已收到推送~

      congyh  发表于 2018-06-25 00:10:22
    • @温雪 谢谢,已收到码,9.99买了第二版

      Cye3s  发表于 2018-06-26 08:45:49
    • @温雪 那我也有旧版电子书,但是没有收到推送

      吴国文  发表于 2018-06-28 00:43:33
  • 有电子版吗
    真无奈啊  发表于 2018-05-11 18:44:46
    推荐
    • 您好,有电子版。

      温雪  发表于 2018-05-14 07:28:52
    • @温雪 如何购买第二版电子书呢?没有找到购买通道

      Randall  发表于 2018-06-01 11:47:21
    • @Randall 您好,电子书预计下周发布,敬请关注。

      温雪  发表于 2018-06-01 14:33:14
  • 本人有银子,但又不够兑换一本书,所以想出售手上的银子有人需要的吗?
    笑子予  发表于 2018-06-10 10:56:41
    推荐
  • 7章的数据集被原始网站移除了,请问作者/译者自己能否在GitHub上补上数据集呀~感谢~
    elfa  发表于 2018-11-20 20:11:38
    推荐
    • 您好,请问您说的是第126页的ftp://ftp.nlm.nih.gov/nlmdata/sample/medline/*.gz吗?经询问译者,这不是一条直接点开的链接,直接点开是无效的。这是一条linux的命令,您需要运行这条命令来下载数据集。感谢您关注本书!

      温雪  发表于 2018-11-21 09:52:29
    • @温雪 第一次见过回复这么快的小编!!!!!说实话这种服务效率震惊了我!!以后会一直支持图灵社区的!感谢回复呀!

      elfa  发表于 2018-11-21 21:58:39
    • @elfa 感谢您的肯定,这是我们应该做的!对了,您提到的数据集,把*.gz去掉就可以访问FTP目录了,即ftp://ftp.nlm.nih.gov/nlmdata/sample/medline/,这个链接是可以直接打开的,您可以试试。

      温雪  发表于 2018-11-22 07:18:14
    • @温雪 非常感谢小编~已经下载下来啦~可以愉快的敲代码啦~ღ( ´・ᴗ・` )比心~~

      elfa  发表于 2018-11-22 09:59:19
  • 请问一下本书使用是的sprk 的什么版本?
    小宇哥123  发表于 2019-02-14 11:54:32
    推荐
    • 您好,本书使用的是Spark 2.0。

      温雪  发表于 2019-02-14 13:40:16
    • @温雪 谢谢,已经买了

      小宇哥123  发表于 2019-02-20 14:00:58