Spark高级数据分析
19推荐 收藏
15.7K阅读

Spark高级数据分析

Sandy Ryza , Uri Laserson , Sean Owen , Josh Wills (作者) 龚少成 (译者)
本书首先介绍了Spark及其生态系统,接着详细介绍了将分类、协同过滤及异常检查等常用技术应用于基因学、安全和金融领域的若干模式。如果你对机器学习和统计学有基本的了解,并且会用Java、Python或Scala编程,这些模式将有助于你开发自己的数据应用。

本书介绍了以下模式:

音乐推荐和Audioscrobbler数据集
用决策树算法预测森林植被
基于K均值聚类进行网络流量的异常检测
基于潜在语义分析技术分析维基百科
用GraphX分析伴生网络
对纽约出租车轨迹进行空间和时间数据分析
通过蒙特卡罗模拟来评估金融风险
基因数据分析和BDG项目
用PySpark和Thunder分析神经图像数据

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

PS:也会在图灵社区电报频道更新

电子书
¥29.99
格式
mobi   pdf

纸质书
¥46.61 ¥59.00

出版信息

  • 书  名Spark高级数据分析
  • 执行编辑关于本书的内容有任何问题,请联系 岳新欣
  • 出版日期2015-11-09
  • 书  号978-7-115-40474-9
  • 定  价59.00 元
  • 页  数244
  • 印刷方式黑白
  • 开  本16开
  • 出版状态暂时缺货
  • 原书名Advanced Analytics with Spark
  • 原书号978-1-4919-1276-8

所属分类

本书特色

这是一本实用手册,四位作者均是Cloudera公司的数据科学家,他们联袂展示了利用Spark进行大规模数据分析的若干模式,而且每个模式都自成一体。他们将Spark、统计学方法和真实数据集结合起来,通过实例向读者讲述了怎样解决分析型问题。

目录

版权声明 阅读
O'Reilly Media, Inc.介绍 阅读
推荐序 阅读
译者序 阅读
阅读
前言 阅读
第 1 章 大数据分析 阅读
第 2 章 用 Scala 和 Spark 进行数据分析
第 3 章 音乐推荐和 Audioscrobbler 数据集
第 4 章 用决策树算法预测森林植被
第 5 章 基于 K 均值聚类的网络流量异常检测
第 6 章 基于潜在语义分析算法分析维基百科
第 7 章 用 GraphX 分析伴生网络
第 8 章 纽约出租车轨迹的空间和时间数据分析
第 9 章 基于蒙特卡罗模拟的金融风险评估
第 10 章 基因数据分析和 BDG 项目
第 11 章 基于 PySpark 和 Thunder 的神经图像数据分析
附录 A Spark 进阶
附录 B 即将发布的 MLlib Pipelines API
作者介绍
封面介绍

作者介绍

<作者简介>
Sandy Ryza是Cloudera公司资深数据科学家,Apache Spark项目的活跃代码贡献者。最近领导了Cloudera公司的Spark开发工作。他还是Hadoop项目管理委员会委员。

Uri Laserson是Cloudera公司资深数据科学家,专注于Hadoop生态系统中的Python部分。

Sean Owen是Cloudera公司EMEA地区的数据科学总监,也是Apache Spark项目的代码提交者。他创立了基于Spark、Spark Streaming和Kafka的Hadoop实时大规模学习项目Oryx(之前称为Myrrix)。

Josh Wills是Cloudera公司的高级数据科学总监,Apache Crunch项目的发起者和副总裁。

<译者简介>

龚少成 清华大学硕士,现任肯睿(上海)软件有限公司售前技术经理。曾在亿贝中国软件开发中心任高级软件工程师,后来就职于英特尔亚太研发有限公司,是大数据解决方案部门金融行业团队的技术负责人。他有十年软件行业经验,最近四年专注于Hadoop解决方案和应用的开发。在中国农业银行大数据平台、上海电信3G无线网络优化和太平洋保险大数据平台项目中担任关键角色,并提供Hadoop咨询服务,开发Hadoop关键组件应用。他还参与了宁波银行、华泰证券、东方证券等大数据平台的建设并提供咨询服务。他同时也是Cloudera公司认证CCAH讲师,有丰富的CCAH培训和授课经验。

微信号:crusading。邮箱:shaocheng.gong@cloudera.com。

大家也喜欢

  • Spark机器学习(第2版)

    [印]拉结帝普•杜瓦   [印]曼普利特•辛格•古特拉   [南非]尼克•彭特里思   蔡立宇   黄章帅   周济民   译

    本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...

  • Spark高级数据分析(第2版)

    [美] 桑迪·里扎   [美] 于里·莱瑟森   [英] 肖恩·欧文   [美] 乔希·威尔斯   龚少成   邱鑫   译

    本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近...

  • Spark最佳实践

    本书是Spark实战指南,全书共分8章。前4章介绍Spark的部署、工作机制和内核,后4章分别通过实战项目介绍...

  • Spark快速大数据分析

    Holden Karau   Andy Konwinski   Patrick Wendell   Matei Zaharia   王道远   译

    本书由 Spark 开发者及核心成员共同打造,讲解了网络大数据时代应运而生的、能高效迅捷地分析处理数据的工具—...

  • Spark机器学习

    Nick Pentreath   蔡立宇   黄章帅   周济民   译

    本书介绍了Spark的基础知识,从利用Spark API来载入和处理数据,到将数据作为多种机器学习模型的输入。...

相关文章

  • 李松峰 10推荐

    编辑与正则一:快速生成表格

    问题 书中某一章有一些表格,译者没有使用扩展Markdown的表格标记,而使用代码标记和空白(空格或制表符),手工分了出行和列。源代码如下所示: ![enter image description here][1] 预览结果是这样的: ![enter image des…...

  • 有电子版否
    林源  发表于 2015-10-31 19:28:03
    推荐
    • 有的,不过要稍等等。

      岳新欣  发表于 2015-11-02 09:58:48
  • 没有执行的名字之间没有关联和说明,使用的服务的版本之类的为信息也没说明。。。。。。。。。。。。。。。。。。。。。。。。。。太郁闷了。
    ethan100  发表于 2016-03-24 21:10:19
    推荐
    • 执行的命令之间的关联没有说明

      ethan100  发表于 2016-03-24 21:10:55
  • 电子版就是好,书还没开卖就能看了
    xinconan  发表于 2015-11-04 22:45:59
    推荐
  • 操作的过程和命令太省略和有些对不上,不能够直接的跟着书来。十分影响阅读。
    ethan100  发表于 2016-03-24 20:55:01
    推荐
  • 本书附带的源代码是怎么鬼?谁能透漏一下怎么看?
    JohnCwg  发表于 2018-06-28 18:02:25
    推荐
    • 您好,代码已重新上传,请再下载试试。如有问题,您可从https://github.com/sryza/aas/tree/1st-edition下载。

      岳新欣  发表于 2018-06-29 08:59:18
    • @岳新欣 谢谢,这次的可以了,辛苦。

      JohnCwg  发表于 2018-06-29 11:05:07