机器学习是一种让计算机像人一样具有学习能力的技术。

应用实例

  • 在海量数据中筛选自己需要的数据
  • 精准广告投放
  • 事物发展趋势预测

机器学习的种类

  • 监督学习
  • 无监督学习
  • 强化学习

监督学习

在计算机解决问题时给出反馈,通过不断修正、纠错让计算机能够泛化解决问题的能力。可以类比成学生做题,老师批改。

无监督学习

计算机在解决问题时,没有明确的反馈。可以类比成学生自学。

强化学习

和无监督学习一样,在解决问题的过程中同样没有反馈,但是可以通过环境信息进行自我评估。可以类比成学生自测。

机器学习的一些术语

  • 回归
  • 分类
  • 异常检测
  • 聚类
  • 降维

回归

给定样本集{(xi,yi)},在 x 和 y 之间的真实映射关系f(x)未知的情况下,通过样本数据拟合出近似函数F(x),F(x)就是回归函数,监督学习的最终目的就是要找到f(x),但是由于噪声的干扰,最终得到的往往是一个近似函数F(x),因此,若F(x)与f(x)相似度越高,F(x)解决问题的泛化能力就越大。

分类

给定样本集{(xi,yi)},且每一个样本输出yi都属于类别集合{c1,c2,...,cn},在分类问题中,我们要寻找的是c=f(x)。与回归不同的是,分类仅仅单纯地预测样本属于哪一个类别,并根据预测的准确率来判断泛化能力的大小。

异常检测

寻找输入样本{xi}中的异常数据。在已知正常输入与异常输入的例子的情况下,异常检测与分类问题相似。在不知道那种输入是异常输入的情况下,通常通过密度估计来进行异常检测,靠近密度中心的是正常输入,偏离密度中心的是异常输入。

聚类

聚类问题也和分类问题相似,但聚类实现不知道类别,而是需要通过输入样本之间的相似度计算出类别,另外在聚类问题中一般用簇这个词来代替类别。所以聚类实际上是要判断输入样本集{xi}中的元素属于哪个簇。相同簇的样本之间具有相似的性质。

降维

降维是从高维度数据提取关键信息并将其转换为易于计算的低维度数据的方法,要注意的是,降维应该保持原本的输入数据的分布性质以及数据间的近邻关系不发生变化。

机器学习的方法

生成的分类和识别的分类

通过数据生成概率p(x,y)分类就是基于生成的分类,通过后验概率p(y|x)的分类是基于识别的分类。

p(y|x)=p(x,y)/p(x),设y属于{yi},则p(x)实际上可以看作p(x,yi)的和。因此,如果能求得数据生成概率p(x,y),则一定能求出后验概率p(y|x),反之不成立。

统计概率和朴素贝叶斯

统计概率研究如何用训练集得到高精度的模式,朴素贝叶斯研究如何精确地计算后验概率。