序言

在过去这些年里,无论是在科学界、企业界还是个人领域,数字化数据及其使用已呈爆炸式增长。在一些领域中,如天文学和搜索引擎,数据是海量的,因此需要特定的工具和框架,这就构成了 “大数据” 问题。

数据量虽然不一定大(如家庭照片或者视频),但仍然对算法提出了挑战。近年来的巨大变化不在于数据的大小,而在于它们已经变得无处不在,每天都在使用。

在过去 20 年里,统计学习(机器学习)在计算机科学和统计学的交叉领域中取得了巨大的发展,并构成了现代数据处理算法的方法论核心。虽然对机器学习的研究依然在飞速发展中,但是方法论和算法的基石已经显露出来。

这本书对最重要的监督学习的概念、工具及其推广做了介绍,其一大特点是呈现了优雅、简单而强大的理论结果,在实践中得到检验的有效算法,以及可以重用的程序代码。

Francis Bach

2014 年 10 月

目录