第一部分 分类

本书前两部分主要探讨监督学习(supervised learning)。在监督学习的过程中,我们只需要给定输入样本集,机器就可以从中推演出指定目标变量的可能结果。

监督学习相对比较简单,机器只需从输入数据中预测合适的模型,并从中计算出目标变量的结果。监督学习一般使用两种类型的目标变量:标称型和数值型。标称型目标变量的结果只在有限目标集中取值,如真与假、动物分类集合{ 爬行类、鱼类、哺乳类、两栖类} ;数值型目标变量则可以从无限的数值集合中取值,如0.100、42.001、1000.743 等。数值型目标变量主要用于回归分析,将在本书的第二部分研究,第一部分主要介绍分类。

本书的前七章主要研究分类算法,第2 章讲述最简单的分类算法:k- 近邻算法,它使用某种距离计算方法进行分类;第3 章引入了决策树,它比较直观,容易理解,但是相对难于实现;第4 章将讨论如何使用概率论建立分类器;第5 章将讨论Logistic 回归,如何使用最优参数正确地分类原始数据,在搜索最优参数的过程中,将使用几个经常用到的优化算法;第6 章介绍了非常流行的支持向量机;第一部分最后的第7 章将介绍元算法——AdaBoost,它由若干个分类器构成,此外还总结了第一部分探讨的分类算法在实际使用中可能面对的非均衡分类问题,一旦训练样本某个分类的数据多于其他分类的数据,就会产生非均衡分类问题。

目录