前言

人工智能技术正以前所未有的速度深刻地改变着我们的生活,引导了第四次工业革命。在这次技术革命中,为了抢占人工智能发展的战略机遇,构筑我国在人工智能的领先优势,国务院制定了新一代人工智能发展规划,体现了我国政府对人工智能的高度重视。未来这个领域将迎来重大的发展机遇,同时也面临着巨大的挑战,这就对每一位人工智能领域的从业人员和有志于在这个领域发展的科技人员的技术水平和专业领域知识提出了更高的要求。

机器学习是人工智能领域最重要的方向之一,它分为三个主要的研究领域:监督学习、非监督学习和强化学习。监督学习可以细分为分类和回归,它需要有样本标注,样本的质量和规模决定了模型的复杂度和效果,这也是为什么人工智能需要大数据作为支撑的重要原因。监督学习是目前应用最广泛的一种机器学习方法,比如我们常见的广告点击率预估、商品推荐、搜索排序等。非监督学习可以细分为聚类、降维等方向,它可以发掘在大量未标注数据中的规律。强化学习是智能系统从环境到行为映射的学习,以使奖励函数值最大,被认为是最接近人类的学习行为,在工业控制、机器人行为决策等领域得到广泛的应用。

近年来深度学习的提出和普及,使得一些在传统的机器学习领域解决不好的问题得到极大的改善,比如图像识别ImageNet使分类的错误率已经缩小到原来的1/10,并超过了人类的识别准确率。深度学习是目前人工智能领域发展最为活跃的领域。大量的模型和理论不断地涌现,比如媒体常报道的机器画画就是GAN模型的应用。还有所说的机器作诗、机器写新闻,也是基于深度学习的RNN模型。深度学习已经完全统治了图像和语音识别的机器学习领域,并且在自然语言处理领域也在不断发掘新的应用。深度学习和强化学习相结合极大地影响了强化学习领域,采用深度网络来改造强化学习中的函数值拟合,取得了非常不错的效果,比如大名鼎鼎的Alpha Go和Alpha Zero的本质都是深度强化学习的应用。深度学习领域现在还在迅速发展之中。反向传播是深度学习的根基之一,有几十年的使用历史。但是最近深度学习之父Hinton呼吁对反向传播保持怀疑态度,并提出了新的Capsule网络。传统的神经网络中,每一个神经元输入和输出都是标量,而Capsule网络中是一个或一组向量,每一层之间通过迭代路由协议机制激活更高层的Capsule。这有可能成为深度学习领域的重大变革。

美团作为国内O2O领域领先的服务平台,结合自身的业务场景和数据,积极进行了人工智能领域的应用探索。在美团的搜索、推荐、计算广告、风控、图像处理等领域,相关的人工智能技术得到广泛的应用,并取得了不错的效果。我们组建了算法技术通道,并制定了相关的课程体系和分享机制。经过多年的努力,美团在人工智能和O2O的结合上,积累了丰富的经验。写作本书的目的之一就是与业界分享这些经验,共同推进AI + O2O的发展。

本书分为6大部分,全面介绍了美团在多个重要方面对机器学习的应用。

 第一部分是通用流程,包括第1~4章。这里讲述了机器学习解决实际问题的通用流程:如何分析问题,如何进行特征工程、常见模型的比较和选择,以及如何进行效果评测;最后还介绍了在各类机器学习竞赛中常用的模型融合技巧。

 第二部分是数据挖掘,包括第5~7章。用户画像在业务上有着重要的作用,是个性化推荐排序的基础。曾经出现网上流传的百度内部截图、搜狗上市新闻为什么没有推荐给CEO的情况,解决这类问题的关键在于用户画像技术。这里详细介绍了美团在这方面的实践。实体链接是知识图谱和POI数据建设的重要基础,评论挖掘是UGC内容挖掘的常见应用,这里也介绍了我们关于UGC内容挖掘的做法。

 第三部分是搜索和推荐,包括第8~10章。不同于全网网页搜索、垂直搜索和商品搜索,O2O领域的搜索排序有着自身的特点,面临的挑战也存在差异。本部分分享了关于搜索排序中常见的查询分析、用户意图识别、机器学习排序的做法和实践。推荐在O2O场景下有着非常关键的作用,最后对推荐部分也作了介绍。

 第四部分是计算广告,包括第11章和第12章。计算广告是互联网目前主流的盈利模式之一,这里从广告设计的机制特点、定向方式、用户偏好、损失建模等方面,详细地介绍我们在这个领域的实践。

 第五部分是深度学习,包括第13~15章。这里介绍了美团在计算机视觉和自然处理领域的深度学习实践。深度学习在业务上的应用非常多,限于篇幅,我们主要分享了在图像分类、OCR识别、图像质量优化、情感分析、机器学习排序方面的应用。

 第六部分是算法工程,包括第16章和第17章。机器学习算法要在实际应用中更好地落地,相关的工程也非常重要。这里我们主要介绍了在大规模机器学习、特征的生产和监控、模型线上效果实验和评测等方面的工作。

本书并不是一本机器学习的理论教材,它的内容非常广泛,主要侧重工业界的业务实践。本书非常适合有一定机器学习基础的工程技术人员和在校大学生学习和阅读。通过阅读本书,有经验的算法工程师可以了解美团在这方面的做法,在校大学生可以学习机器学习算法如何在具体的业务场景中落地。

本书内容涉及美团多个事业群的工作,得到了美团技术委员会、技术学院和算法通道的大力支持。非常感谢参与本书编写和校对的算法工程师们,你们平时的工作已非常繁忙,正是因为你们利用自己的休息时间辛勤地参与本书的编写和校对,无私地分享自己的经验和智慧,本书才得以完成。

本书由陈华清统一规划、整理、主持编写。参与本书写作的作者还有易根良、陈振、石晓巍、聂鹏宇、曲思聪、袁博、朱日兵、仙云森、周翔、唐金川、刘铭、曹浩、戚亦平、魏晓明、蒋前程、付晴川、雷军、李彪、燕鹏、顾昊和王磊。本书从开始规划、斟酌内容、反复修改,到最终定稿,历时一年的时间。在此对参与写作的所有作者们表示诚挚的敬意和感谢。

陈华清

2018年5月

目录

  • 序言
  • 前言
  • 第一部分 通用流程
  • 第1章 问题建模
  • 第2章 特征工程
  • 第3章 常用模型
  • 第4章 模型融合
  • 第二部分 数据挖掘
  • 第5章 用户画像
  • 第6章 POI实体链接
  • 第7章 评论挖掘
  • 第三部分 搜索和推荐
  • 第8章 O2O场景下的查询理解与用户引导
  • 第9章 O2O场景下排序的特点
  • 第10章 推荐在O2O场景中的应用
  • 第四部分 计算广告
  • 第11章 O2O场景下的广告营销
  • 第12章 用户偏好和损失建模
  • 第五部分 深度学习
  • 第13章 深度学习概述
  • 第14章 深度学习在文本领域中的应用
  • 第15章 深度学习在计算机视觉中的应用
  • 第六部分 算法工程
  • 第16章 大规模机器学习
  • 第17章 特征工程和实验平台