预测分析与数据挖掘:RapidMiner实现
2推荐 收藏
2.6K阅读
图灵程序设计丛书

预测分析与数据挖掘:RapidMiner实现

Vijay Kotu (作者) 严云 (译者)
- 以易于理解的方式梳理数据挖掘背后的基础知识
- 全面展示预测分析领域广泛的实践案例和方法
- 无需编写代码,即可解决数据分析问题
本书旨在帮助读者理解数据挖掘方法的基础知识,并实现无需编写代码就能在自己的工作中实践这些方法。书中围绕分类、回归、关联分析、聚类、异常检测、文本挖掘、时间序列预测、特征分析等数据挖掘问题,着重介绍了决策树、人工神经网络、k均值聚类等当今广泛使用的二十多种算法,针对每种算法都先以通俗的语言解释其原理,再使用开源数据分析工具RapidMiner实现。

收藏本书能做什么?

有情况的时候会收到通知,比如电子书发布等。

纸质书
¥89.10 ¥99.00

出版信息

同系列书

  • HTTP权威指南

    David Gourley   Brian Totty   Marjorie Sayer   Sailu Reddy   Anshu Aggarwal   陈涓   赵振平   译

    本书是HTTP及其相关核心Web技术方面的权威著作,主要介绍了Web应用程序是如何工作的,核心的因特网协议如何...

  • JavaScript高级程序设计(第3版)

    Nicholas C.Zakas   李松峰   曹力   译

    本书是JavaScript超级畅销书的新版。ECMAScript 5 和HTML5在标准之争中双双胜出,使大量...

  • 计算机科学的基础

    Al Aho   Jeff Ullman   傅尔也   译

    本书全面而详细地阐述了计算机科学的理论基础,从抽象概念的机械化到各种数据模型的建立,用算法、数据抽象等核心思想...

  • Java技术手册(第6版)

    Benjamin J Evans   David Flanagan   安道   译

    通过学习本书,你将能够: 掌握最新的语言细节,包括Java 8的变化 使用基本的Java句法学习面向对...

  • 机器学习实战

    Peter Harrington   李锐   李鹏   曲亚东   王斌   译

    机器学习是人工智能研究领域中一个极其重要的研究方向,在现今的大数据时代背景下,捕获数据并从中萃取有价值的信息或...

本书特色

“RapidMiner可以让非专业人士获得与数据科学家一样的分析能力;Vijay与Bala的这本书将促成分析模式的转变,打破你学习数据科学时的瓶颈。”
——Ingo Mierswa,RapidMiner公司CEO、联合创始人

“很棒的一本数据科学参考书,透彻阐述了预测分析的本质。”
——Computing Reviews

“本书是数据分析师、商务人士、市场营销专业人士和所有想学习数据挖据读者的理想教材。”
——AnalyticBridge.com

“本书既详尽介绍了数据分析方法,又提供了大量算法的实际用例,让读者全面了解预测和模式识别的各种数据挖掘算法,学会针对给定数据问题的正确解决方法。”
——Eric Siegel博士,Predictive Analyics World创始人

“预测分析的书通常分为两类,一类关注概念介绍,一类擅长技术分析。本书则在两者间做到了很好的平衡。选取RapidMiner也是明智之举,读者只需会用Excel,就能跟上作者的思路,而且RapidMiner功能齐备、开源、具有图形用户界面,读者可以在轻松消化基础概念的同时实践数据挖掘算法。”
——Maria Stone,Yahoo数据与用户体验中心副总裁

目录

第 1章 引言  1
1.1 什么是数据挖掘  2
1.1.1 有意义模式的提取  2
1.1.2 代表性模型的构建  2
1.1.3 统计、机器学习和计算的搭配  3
1.1.4 算法  4
1.2 对数据挖掘的误解  4
1.3 数据挖掘的初衷  5
1.3.1 海量数据  5
1.3.2 多维  6
1.3.3 复杂问题  6
1.4 数据挖掘的种类  7
1.5 数据挖掘的算法  8
1.6 后续章节导览  9
1.6.1 数据挖掘的序曲  9
1.6.2 小插曲  10
1.6.3 主要内容:预测分析和数据挖掘算法  10
1.6.4 特别应用  12
参考文献  13
第 2章 数据挖掘流程  14
2.1 先验知识  16
2.1.1 目标  16
2.1.2 研究问题的背景  17
2.1.3 数据  17
2.1.4 因果性与相关性  18
2.2 数据准备  19
2.2.1 数据探索  19
2.2.2 数据质量  20
2.2.3 缺失值  20
2.2.4 数据类型和转换  20
2.2.5 数据转换  21
2.2.6 离群点  21
2.2.7 特征选择  21
2.2.8 数据采样  22
2.3 建模  22
2.3.1 训练集和测试集  23
2.3.2 建模算法  24
2.3.3 模型评估  25
2.3.4 集成建模  26
2.4 应用  27
2.4.1 生产准备  27
2.4.2 方法整合  27
2.4.3 响应时间  28
2.4.4 重构模型  28
2.4.5 知识融合  28
2.5 新旧知识  29
2.6 后续章节预告  29
参考文献  29
第3章 数据探索  31
3.1 数据探索的目标  31
3.2 走进数据  32
3.3 描述性统计分析  34
3.3.1 单变量探索  35
3.3.2 多变量探索  36
3.4 数据可视化  39
3.4.1 一个维度内数据频率分布的可视化  39
3.4.2 直角坐标系内多变量的可视化  43
3.4.3 高维数据通过投影的可视化  48
3.5 数据探索导览  50
参考文献  51
第4章 分类  52
4.1 决策树  52
4.1.1 算法原理  53
4.1.2 算法实现  59
4.1.3 小结  71
4.2 规则归纳  72
4.2.1 建立规则方法  73
4.2.2 算法原理  74
4.2.3 算法实现  77
4.2.4 小结  81
4.3 k 近邻算法  81
4.3.1 算法原理  82
4.3.2 算法实现  88
4.3.3 小结  91
4.4 朴素贝叶斯  91
4.4.1 算法原理  93
4.4.2 算法实现  100
4.4.3 小结  102
4.5 人工神经网络  102
4.5.1 算法原理  105
4.5.2 算法实现  108
4.5.3 小结  110
4.6 支持向量机  111
4.6.1 概念和术语  111
4.6.2 算法原理  114
4.6.3 算法实现  116
4.6.4 小结  122
4.7 集成学习模型  122
4.7.1 集体的智慧  123
4.7.2 算法原理  124
4.7.3 算法实现  126
4.7.4 小结  134
参考文献  134
第5章 回归方法  137
5.1 线性回归  139
5.1.1 算法原理  139
5.1.2 使用RapidMiner实战的目标与数据  141
5.1.3 算法实现  142
5.1.4 线性回归建模要点  148
5.2 Logistic回归  149
5.2.1 快速入门Logistic回归  150
5.2.2 模型原理  151
5.2.3 模型实现  155
5.2.4 Logistic回归小结  158
5.3 总结  158
参考文献  158
第6章 关联分析  160
6.1 挖掘关联规则的基本概念  161
6.1.1 项集  162
6.1.2 生成关联规则的一般步骤  164
6.2 Apriori算法  166
6.2.1 使用Apriori算法找出高频项集  167
6.2.2 生成关联规则  169
6.3 FP-Growth算法  169
6.3.1 生成FP树  170
6.3.2 高频项集的生成  172
6.3.3 FP-Growth算法实现  173
6.4 总结  176
参考文献  176
第7章 聚类  178
7.1 聚类方法的种类  179
7.2 k均值聚类  182
7.2.1 k均值聚类原理  183
7.2.2 算法实现  187
7.3 DBSCAN聚类  191
7.3.1 算法原理  192
7.3.2 算法实现  195
7.3.3 小结  197
7.4 SOM   197
7.4.1 算法原理  199
7.4.2 算法实现  202
7.4.3 小结  208
参考文献  208
第8章 模型评估  210
8.1 混淆矩阵  210
8.2 ROC曲线和AUC  212
8.3 提升曲线  214
8.4 评估预测结果  217
8.5 总结  221
参考文献  221
第9章 文本挖掘  222
9.1 文本挖掘算法的原理  223
9.1.1 TF-IDF  223
9.1.2 术语和概念  225
9.2 使用聚类和分类算法实现文本挖掘  229
9.2.1 实例1:关键词聚类  229
9.2.2 实例2:预测博客作者的性别  232
9.3 总结  241
参考文献  242
第 10章 时间序列预测  243
10.1 基于数据的时序分析  245
10.1.1 朴素预测法  245
10.1.2 简单平均法  246
10.1.3 移动平均法  246
10.1.4 加权移动平均法  247
10.1.5 指数平滑法  247
10.1.6 Holt双参数指数平滑法. . 248
10.1.7 Holt-Winter三参数指数平滑法  249
10.2 基于模型的预测方法  250
10.2.1 线性回归  251
10.2.2 多项式回归  252
10.2.3 考虑季节性的线性回归模型  252
10.2.4 自回归模型与ARIMA  254
10.2.5 基于RapidMiner的实现  254
10.3 总结  261
参考文献  261
第 11 章异常检测  262
11.1 异常检测的基本概念  262
11.1.1 出现离群点的原因  262
11.1.2 异常检测的方法  264
11.2 基于距离的离群点检测方法  266
11.2.1 方法原理  267
11.2.2 方法实现  268
11.3 基于密度的离群点检测方法  270
11.3.1 方法原理  270
11.3.2 方法实现  271
11.4 局部离群因子  272
11.5 总结  274
参考文献  275
第 12章 特征选择  276
12.1 特征选择方法概览  276
12.2 主成分分析  278
12.2.1 算法原理  279
12.2.2 算法实现  280
12.3 以信息论为基础对数值型数据进行筛选  284
12.4 以卡方检验为基础对类别型数据进行筛选  286
12.5 基于封装器的特征选择  289
12.5.1 向后消除法以缩减数据集大小  290
12.5.2 哪些变量被消除了  292
12.6 总结  293
参考文献  294
第 13章 RapidMiner入门  295
13.1 用户操作界面以及介绍  295
13.1.1 图形用户操作界面的介绍  295
13.1.2 RapidMiner软件的术语  296
13.2 数据导入和导出工具  299
13.3 数据可视化工具  302
13.3.1 单一变量可视化  304
13.3.2 二维数据可视化  304
13.3.3 多维数据可视化  304
13.4 数据转换工具  305
13.5 数据抽样与处理缺失值工具  309
13.6 优化工具  312
13.7 总结  317
参考文献  317
数据挖掘算法的比较  319

作者介绍

Vijay Kotu,Yahoo分析总监,负责线上业务的大数据与分析系统的实现,在预测分析领域有十余年工作经验。ACM会员,美国质量协会认证的六西格玛黑带。

Bala Deshpande,业界知名数据分析应用开发与咨询公司SimaFore创始人,20余年分析经验,精通各类分析技巧,经常在其博客www.simafore.com/blog上分享数据挖掘与预测分析方面的心得。

严云 研究兴趣为计算生物学,以0和1的语言解读ATGC的世界。
暂无评论!