1.3 本书概览和读者指南

本书包括三个部分。第一部分“基础知识”概述如何表示社会媒体数据,介绍社会媒体挖掘的基本要素。第二部分“社区和交互”讨论如何在社会媒体中发现社区,以及在社会媒体中如何进行交互和信息传播。第三部分“应用”介绍社会媒体挖掘中一些新颖的解说性应用。在本书中,我们使用例子来解释事物是如何运作的,并加深对抽象概念和艰深算法的理解。这些例子鲜活地展示了在社会媒体数据中发现有意义的模式这一过程中,相关理论是如何应用的,一些想法又是如何实现的。

考虑一个拥有数百万用户的在线社交网站,其中用户有机会去结交朋友,相互发送信息,并且在网站上发布内容。Facebook、LinkedIn和Twitter都是这种网站的范例。为了从这些网站中获取有价值的数据,我们求助于社会媒体挖掘技术来回答相关问题。在第一部分(第2~5章),我们学会回答诸如以下问题。

(1) 谁是社会网络中最重要的人?

(2) 人们如何交朋友?

(3) 如何从用户生成内容中发现有趣的模式?

这些内容在第二部分(第6章和第7章)中发挥作用。在第二部分,我们尝试去分析社区如何形成、如何演变,如何评价发现的社区的质量。我们会展示社会媒体的信息扩散是可以被发现和研究的。我们的目标是回答以下这些常见问题。

(1) 如何在社会网络中识别社区?

(2) 当有人在社会网络中发表一篇有意思的文章时,这篇文章在社会网络中能够被传播多远?

在第三部分(第8~10章),我们用真实案例展示如何用社会媒体解决现实世界中的问题:衡量影响力,在社会环境中进行推荐,以及分析用户行为。我们的目标是回答下面这些问题。

(1) 如何衡量社会网络中个人的影响力?

(2) 如何在线为个人推荐内容和好友?

(3) 如何在线分析个人行为?

为了更好地展示本书的全部内容,我们绘制了一个各章之间的依赖关系图(图1-1),图中的箭头表示了依赖关系 。根据这个依赖关系图,读者可以从第2章(图的基本要素)开始读起,并且建议在阅读第9章(社会媒体中的推荐)前先阅读第5章(数据挖掘的基本要素)和第8章(影响力和同质性)。在图中,我们也将各章的文本框用不同颜色进行标注,同一颜色表示具有相同的重要程度和抽象水平。颜色最深的几章是本书的重要基础,颜色最浅的几章则更偏应用,并且其中的一些内容是以其他章的内容为基础的。

enter image description here

 ① 箭头指向的章需要以箭头指出的章为基础。——译者注

谁应该阅读本书

拥有基本的计算机科学背景以及数据结构、检索和图论算法知识的读者,会觉得这本书很容易理解。对线性代数、微积分、概率和统计学有所了解的话,将能更轻松地理解本书中的技术细节。有数据挖掘和机器学习背景会有好处,但并不是必需的。

本书主要面向高年级本科生以及研究生。它可以用作具有统计和线性代数基础知识的学生的教材,学习一个学期。如果在重点讲授高级技术的章节基础上再补充一些详细的参考文献和注释,则本书还可以当作研究生的专题研究课程教材。此外,如果相关领域的研究人员、从业者和项目经理想学习这一新兴领域的基础知识和实际案例,并且想了解社会媒体挖掘能够提供的潜力和机遇,本书还可以当作他们的参考工具书。

目录