看看以下事项有何共同点:营销归因分析、反洗钱分析、客户旅程建模、安全事故原因分析、基于文献的发现、欺诈网络检测、互联网搜索节点分析、地图应用创建、疾病聚类分析,以及莎士比亚戏剧的剧情分析。你可能已经猜到了,上述事项的共同点是都会用到图,这证明莎士比亚所说的“全世界是一张图”1是正确的。

1原话是All the world's a stage(全世界是一个舞台)。——译者注

当然,莎士比亚的那句话并没有提到图,他写的是舞台。但请注意,上述例子都涉及实体与实体之间的关系,包括直接关系和间接(传递)关系。实体就是图中的节点,可以是人、事件、对象、概念或位置。节点之间的关系就是图中的边。莎士比亚戏剧的精髓不正是对实体(节点)及其关系(边)的逼真刻画吗?也许,莎士比亚真的应该在他的那句名言中写上图。

图算法和图数据库有趣且强大,这并不是因为两个实体之间的简单关系,即 A 与 B 相关。毕竟,数据库标准关系模型早在几十年前就在实体关系图中实例化了这些关系类型。真正使图重要的是方向关系和传递关系。在方向关系中,A 可能导致 B,反之则不一定。在传递关系中,A 可以与 B 直接相关,B 可以与 C 直接相关,而 A 与 C 不直接相关,即 A 通过传递关系与 C 相关。

利用这些传递关系,图模型能够揭示实体之间的关系,特别是当关系的数量众多且多样化时,实体之间可能存在许多关系(或网络模式)和分离度。如果没有图模型,那么实体可能看起来是不相连或不相关的,也就无法在关系数据库中表示。因此,图模型可以有效地应用于许多网络分析场景。

思考如下营销归因用例:人物 A 看到了某产品的促销活动信息,并在社交媒体上谈论该促销活动;人物 B 与人物 A 有联系,B 看到了 A 的评论,然后购买了该产品。从营销主管的视角来看,标准的关系模型无法识别这样的归因,因为 B 没有看到活动信息,而 A 又没有对活动做出实际响应。这样的活动看起来是失败的,但是通过图分析算法就会发现,它 实际上是成功的(投资回报率为正),基于促销活动和最终客户购买之间的传递关系,通 过中间人(位于中间的实体)实现。

接下来,思考一个反洗钱分析用例:人物 A 和人物 C 涉嫌非法贩运。两人之间的任何互动(例如金融数据库中的交易信息)都会被当局标记出来,并受到严格审查。然而,如果 A 和 C 从来没有过业务往来,而是通过安全、受人尊敬、未经标记的金融机构 B 进行金融交易,那么如何发现非法交易呢?用图分析算法!图引擎将发现 A 和 C 之间通过中间机构 B 的传递关系。

在互联网搜索中,主流搜索引擎使用基于图的超链接网络算法查找任意给定的检索词集合,在整个互联网上寻找中心权威节点。在这种情况下,边的方向性至关重要,因为网络中的权威节点是其他许多节点会指向的节点。

基于文献的发现(literature-based discovery,LBD)是一种基于图的知识网络应用,支持深入挖掘含有成千上万篇甚至数百万篇期刊文章的知识库。“隐性知识”只能通过已发表的研究成果之间的关系来发现,而这些研究成果之间可能存在多度分离(传递关系)。LBD 已被应用于癌症研究,该领域的医疗知识库富含语义,包含症状、诊断结果、治疗方案、药物相互作用、遗传标记、短期效果和长期作用等信息,而前所未知的治疗方法和对疑难杂症的有效治疗方案就可能“隐藏”其中。知识可能已经存在于网络之中,但是我们需要融会贯通才能发现知识。

对于前面提到的其他用例,也可以给出类似的图功能描述。每个用例都涉及实体(人、对象、事件、动作、概念和位置)及其关系(接触点,包括因果关系和简单关联)。

在考虑图的强大功能时应该牢记,对于实际用例来说,图模型中最强大的当属上下文。上下文包括时间、位置、相关事件、邻近实体等。将上下文作为节点和边整合到图中,可以产生惊人的预测分析和规范分析功能。

这本书旨在帮我们拓展重要图分析类型的相关知识和能力,包括算法、概念以及算法的实际机器学习应用等。从基本概念到基本算法,再到处理平台和实际用例,作者编写了一本内容翔实且富有指导性的指南,带你领略图的奇妙世界。

——Kirk Borne 博士,博思艾伦咨询公司首席数据科学家兼执行顾问,2019 年 3 月

目录

  • 版权声明
  • O'Reilly Media, Inc.介绍
  • 前言
  • 第 1 章 导论
  • 第 2 章 图论及其概念
  • 第 3 章 图平台和图处理
  • 第 4 章 路径查找算法和图搜索算法
  • 第 5 章 中心性算法
  • 第 6 章 社团发现算法
  • 第 7 章 图算法实战
  • 第 8 章 使用图算法增强机器学习
  • 附录 额外信息及资料
  • 关于作者
  • 关于封面