本书基于Python语言环境,从零开始讲解数据科学工作,讲述数据科学工作所需的技能与诀窍,并带领读者熟悉数据科...
本书基于清晰的、面向对象的Java代码,讨论了数据科学研究的一些基本原理。考虑到项目所需的可伸缩性、稳健性以及...
本书提供了一个框架,从整体上介绍与大数据项目开发相关的基本概念,帮助读者评估大数据项目,理解成功的现代数据项目...
数据挖掘是现代企业从数据中提取有用信息、获取竞争优势的重要方法。针对数据科学的这一商业应用,本书进行了深入解读...
本书旨在介绍开源的Python算法库和数学工具包SciPy。近年来,基于NumPy和SciPy的完整生态系统迅...
本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...
Hive“出身名门”,是最初由Facebook公司开发的数据仓库工具。它简单且容易上手,是深入学习Hadoop...
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近...
本书使用R,结合大量实例,详细介绍了数据挖掘的理论和分析方法。全书分为3部分:第1部分简单介绍了使用R进行数据...
本书介绍了统计学的七个基本思想——聚合、信息、似然、相互比较、回归、设计、残差,从其由来到引入,从基本概念到对...
本书旨在帮助读者理解数据挖掘方法的基础知识,并实现无需编写代码就能在自己的工作中实践这些方法。书中围绕分类、回...
稀疏统计模型只具有少数非零参数或权重,经典地体现了化繁为简的理念,因而广泛应用于诸多领域。本书就稀疏性统计学习...
本书阐述了Hadoop从早期开放的消费互联网时代到现在作为敏感数据可信平台的演变历程,介绍了包括身份验证、加密...
目前在分布式一致性应用软件领域,Etcd作为一款后起之秀越来越得到广大从业人员的偏爱,大有取代ZooKeepe...
本书无 pdf 版本,您可以在线阅读,或者推送mobi 版。 大数据量的计算需要用到大量的机器集群作为支...
本书就使用Apache Hadoop端到端数据管理方案提供专业架构指导。其他书籍大多针对Hadoop生态系统中...
本书从最切实可行的大数据方案选择方法着手,面向不懂大数据相关概念、不知道如何将大数据项目引入何种领域的IT团队...
本书是数据仓库之父Inmon的新作,探讨数据的架构和如何在现有系统中最有效地利用数据。本书的主题涵盖企业数据、...
Python 简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python 语言的强大功能,以...
本书作为数据挖掘入门读物,介绍了数据挖掘的基础知识、基本工具和实践方法,通过循序渐进地讲解算法,带你轻松踏上数...
Jeffrey David Ullman(生于1942年11月22日)是一位计算机科学家,现任斯坦福大学的教授。他编写的关于编译器的教科书(各种版本非常流行被称为“龙书”)、关于计算理论的书(被称为“灰姑娘书”),以及数据结构和数据库的相关书籍都被视为是业界的规范。 ![…...
大数据风起云涌,云计算席卷全球。 云计算时代,网络面临怎样的挑战?大数据之下,网络设计应着眼何处?虚拟化的最后1000米你该如何冲刺?OpenFlow、FCoE、LISP、FabricPath、VN-Tag、VPLS、VXLAN……当所有这一切结合到一起,你将面临怎样的情形?…...
欢迎来到大数据时代! ![enter image description here][1] ...
终于把《大数据时代》一书粗略地读了一遍,一路上踉踉跄跄,感觉不少地方逻辑不通,令人费解。前三章观点时而激进,时而温和,后几章非常理性,像是将打出去的拳头又缩了回来。想到作者从事法律工作,还在《科学》杂志上发表过文章,逻辑不应如此混乱,决定找来原书一探究竟,发现中文版与英文版不太…...
“所谓大数据,是一个综合性概念,它包括因具备3V(Volume/Variety/Velocity)特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织。” 所谓“存储、处理、分析的技术”,指的是用于大规模数据分…...
译者:王群锋(简介附后) 译文未经编辑 总体和样本 让我们先来统一一些术语和概念。 在经典统计学理论中,有总体和样本之分。提起总体,人们会马上有以下反应:美国人口总数3亿、世界人口总数70亿等。但是,在统计推断中,总体并不特指人口,它可以是任何对象,任何单位,比如推…...
各位小伙伴,不知不觉地,[第六届中国云计算][1]大会已经悄悄地开幕了,今天是第一天哦,接下来的21日~23日会更为火爆。各路英雄豪杰正马不停蹄地奔向大会,图灵君也抱着一众美书“陆”降现场。小伙伴们,大数据风起云涌,云计算如火如荼啊,图灵君也觉得这股浪潮着实无法抵抗,这不,我诚…...
很想说一句,这个6月,图灵出版发力了,吸引我的书一下子有好几本。 《机器学习》:大数据火了,机器学习也跟着火了,“in Action”系列就代表着口碑,况且还是 @王斌_ICTIR 参与翻译的; **《[大数据的冲击](http://www.ituring.com.cn……...
▌基础知识 {数学与算法} [具体数学][1] [概率论及其应用][2] [程序员的数学][3] [程序员的数学2:概率统计][4] [程序员的数学3:线性代数][5] [算法(第4版)][6] [… ...
从接触软件开发开始,我就一直在学习各种语言,并被同事嘲讽为“Hello World“。其实,我是在寻找最有影响力语言,最适合我性格和习惯的语言。但是在实际的工作中渐渐的被IDE惯坏了,Java成了还用最多的语言。但是内心对C仍然满怀尊敬,但是对C++一直很讨厌。随着对Andro…...
编者按: 大家期待已经的《机器学习实战》终于送印制了,预计6月初即可上市。在此之前,有发过一篇微博,转发量6百有余,今日,确定了上市信息,立即发出消息与大家分享。如何将数学矩阵描述的机器学习算法转化为可以实际工作的应用程序是本书的主要目的,本书使用Python语言进行编程,希望…...
图灵访谈之四十一:专访《大数据》作者Jeffery Ullman教授 英文版 完整无修订英文版 … ...
董飞,Coursera数据工程师。曾先后在创业公司酷迅,百度基础架构组,Amazon 云计算部门,LinkedIn担任高级工程师,负责垂直搜索,百度云计算平台研发和广告系统的架构。董飞本科毕业于南开大学,硕士毕业于杜克大学计算机系。他在知乎上分享过多个引起强烈反响的问答,其中包…...
连城,Databricks工程师,Apache Spark committer。《Erlang/OTP并发编程实战》与《Erlang并发编程(第一篇)》译者。目前从事Apache… ...
需求高涨的数据科学家 从技术方面来看,硬盘价格下降,NoSQL数据库等技术的出现,使得和过去相比,大量数据能够以廉价高效的方式进行存储。此外,像Hadoop这样能够在通用性服务器上工作的分布式处理技术的出现,也使得对庞大的非结构化数据进行统计处理的工作比以往更快速且更廉价。 …...
Holden Karau是IBM首席软件工程师,负责改进Apache Spark并协助开发者向Spark贡献代码。Holden曾是Databricks的软件开发工程师,负责Spark和Databricks Cloud的后端开发。她曾在Google和亚马逊从事软件开发工作,分别负…...
【译文】17个助你开阔视野、熟练技能的免费的数据科学项目(数据集) 作者 MANISH SARASWAT 译者 钱亦欣 简介 数据科学项目可以为你的分析师生涯开辟一条康庄大道,通过它们你不仅可以提升实战经验,也可以让你的CV更加吸引人。毕竟现在已经不是只凭证书和简历就能…...
![enter image description here][1] J+移动互联网技术沙龙2016八月场! 大伙注意: 场地转移到(山东省济南市高新区鑫盛大厦2号楼24层 智汇蓝海路演厅) 跟奥盛大厦斜对过。 时间(8月27日-周六下午) 秋天已到,烈日转和,虽有大雨…...
【编者按】时至今日,Spark 已成为大数据领域最火的一个开源项目,具备高性能、易于使用等特性。然而作为一个年轻的开源项目,其使用上存在的挑战亦不可为不大,这里为大家分享 SciSpike 软件架构师 Ashwini Kuntamukkala 在 Dzone 上进行的 Spar…...
李厦戎称自己为数据控,他致力于机器学习算法和分布式系统的实际应用。目前他正在生物数据领域创业,创办聚道科技(Genedock),希望用数据技术推动生命健康行业革新。李厦戎曾在中国最大的移动数据服务平台友盟工作,他作为首席数据科学家,带领团队针对移动数据特点,构建了面向数十亿移动…...