在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了...
本书是Python数据分析入门书,每个概念都通过简单实例来阐述,便于读者理解与上手。具体内容包括:Python...
数据挖掘是现代企业从数据中提取有用信息、获取竞争优势的重要方法。针对数据科学的这一商业应用,本书进行了深入解读...
Python简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python语言的强大功能,以最小...
本书旨在介绍开源的Python算法库和数学工具包SciPy。近年来,基于NumPy和SciPy的完整生态系统迅...
本书结合案例研究讲解Spark 在机器学习中的应用,并介绍如何从各种公开渠道获取用于机器学习系统的数据。内容涵...
本书是使用Spark进行大规模数据分析的实战宝典,由知名数据科学家撰写。本书在第1版的基础上,针对Spark近...
本书是机器学习实战领域的一本佳作,从机器学习的基本概念讲起,旨在将初学者引入机器学习的大门,并走上实践的道路。...
通过提供分布式数据存储和并行计算框架,Hadoop已经从一个集群计算的抽象演化成了一个大数据的操作系统。本书旨...
本书是对以数据深度需求为中心的科学、研究以及针对计算和统计方法的参考书。本书共五章,每章介绍一到两个Pytho...
本书以Python语言讲述数据科学基础知识,涵盖了数据采集、清洗、存储、检索、转换、可视化、高级数据分析(网络...
本书是专注于数据挖掘与分析的基本算法的入门图书,内容分为数据分析基础、频繁模式挖掘、聚类和分类四个部分,每一部...
本书通过大量案例研究介绍数据可视化的基础知识,以及如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而...
本书介绍如何使用图形化的方法来分析和理解复杂的数据,该方法突出数据中重要的关联和分布趋势,并使用尽可能简单的视...
本书展示如何用 Python 程序将不同格式的数据处理和分析任务规模化和自动化。主要内容包括 :Python ...
本书采用基于项目的方法,介绍用Python完成数据获取、数据清洗、数据探索、数据呈现、数据规模化和自动化的过程...
本书由实战经验丰富的两位数据分析师执笔,书中首先介绍了商业领域里通用的数据分析框架,然后根据该框架,结合8个真...
本书以小说的形式展开,讲述了主人公俵太从大学文科专业毕业后进入征信所,从零开始学习数据分析的故事。书中以主人公...
R语言是面向统计和机器学习的编程语言,本书以R语言的“编程属性”为中心,介绍了熟练使用R语言的方法和关于数据可...
Python 简单易学,拥有丰富的库,并且具有极强的包容性。本书展示了如何利用Python 语言的强大功能,以...
译者:王群锋(简介附后) 译文未经编辑 总体和样本 让我们先来统一一些术语和概念。 在经典统计学理论中,有总体和样本之分。提起总体,人们会马上有以下反应:美国人口总数3亿、世界人口总数70亿等。但是,在统计推断中,总体并不特指人口,它可以是任何对象,任何单位,比如推…...
在我的印象中,侦探的工作就是凭借经验和直觉推理破案,比如查明大家族内杀人案的真凶,或者找出富商埋藏的传家宝之类的。老实说,推理类小说对我的吸引力并不大,不过侦探这职业倒是让我觉得挺帅气。正是出于这种原因,我这个到了大四下半学期仍没拿到一份 Offer 的学生,才会在偶然瞥见招聘…...
图灵社区按: TEAP是什么?TEAP是Turingbook Early Access Program的简称,即早期试读,它公布的是图灵在途新书未经编辑的内容。一本书的翻译周期约为3到6个月,如果在翻译过程中,译者就能与读者进行沟通和交流,对整本书的翻译品质是有帮助的。通过…...
六一节要到了,这个节日对我而言,印象最深!记忆最多! 恰逢今年六一节为星期六,考虑带娃去哪里玩一下呢?给娃买什么礼物呢? 天气炎热了起来,娃起得也早,这是一大早上娃在飘窗上摆的各位“小盆友”,边摆还边跟“小盆友”们一言一语地说话...... ![enter image de…...
以下是常规的统计学手段,也是统计过程: 收集数据:基础性工作,数据收集; 描述性统计:计算出能总结数据的统计量,并评测各种数据可视化的方法; 探索性数据分析:寻找模式、差异和其它能解答我们问题的特征。并会检查不一致性,确认其局限性; 假设检验:在发现明显的影响时(如两个族…...
Nathan Yau新作《Data Points:Visualization That Means Something》中文版《数据之美》已上市,《大数据时代》作者、《经济学人》大数据主编肯尼思库克耶倾情推荐、《经济学人》可视化类图书年度推荐,被誉为“大数据时代数据的呈现和思考…...
![enter image description here][1] FlowingData的作者Nathan Yau最近受邀去美国国家统计局指导帮助他们做数据可视化。这段经历让他感慨颇多,于是在FlowingData上发文讨论了他在和统计局的专家们讨论时 注意到的可视化的五大…...
开始做《统计思维》的练习题,貌似作者为写本书,自己开发了很多Python基础库,你得对这些代码有一定了解,所以,这本书的学习还是有一定挑战度的,不会Python,至少来说你的练习就做不下去了,咳,幸好我也是Pythonic,只是很久不用了就是...... 习题1.3共四小点作…...
![enter image description here][1] 好久未曾如此激动,未曾如此鲜活...... 就算是嘴里含着最爱吃的奶酪蛋糕...... 当一个美少女告诉你,鲜活的现货来了 那主打歌唱响,我看到了数据跳动起来 它穿上华丽的外衣,顿时鲜活了起来......…...
【译文】利用dplyr包进行数据操作 作者 Teja Kodali 译者 钱亦欣 dplyr是R中用来进行数据操作的一个包,由Hadley Wickham(男神!)编写维护。它提供了一些功能强大,易于使用的函数,这些函数对于数据探索分析和数据操作而言非常实用。在本文中我将…...
【译文】R语言中离群值的识别、描述、绘制与移除 作者 Klodian Dhana 译者 钱亦欣 统计学中离群值被定义为离开大部分观测较远的样本点,多数是由于测量误差而产生。因此,数据分析中离群值的识别和移除(如有必要)是很重要的一个步骤。 鉴定离群值的方法有很多种,包括…...
原文出自【听云技术博客】:[http://blog.tingyun.com/web/article/detail/587][1] 一天吃完饭出去散步,周围的小房子不少有开始翻修了,有的直接准备起了6层楼。哎?突然产生一个疑问,怎么这么统一?都这个时候修?春季温度上升终于可一开…...
希望通过本书来开拓大数据分析或数据分析的一些应用 ...
这是一份昨天在开发者头条上最受大家欢迎的优质文章列表,头条君每日清晨为您送达,不见不散! 昨日最佳 Top 3: 爬下 27 万共享单车数据,聊聊单车上的魔都 [[译] GitHub 风格的 Markdown 正式规… ...
Excel 2016 添加了新的图表类型,以便于可视化财务或分层数据,并使用新的图表类型突出显示数据的统计属性:树状图(Treemap)、瀑布图(Waterfall)、排列图(Pareto)、直方图(Histogram)、箱形图(Box & Whisker)和旭日图(…...