我们生活在大数据时代。数亿人花费大量的时间在社会媒体上以史无前例的速度分享、交流、联系、互动,并且产生了海量的用户生成数据,因此社会媒体已成为一种独特的大数据来源。这种来源新颖的丰富数据为学术研究和产品开发提供了巨大的机会和潜能。然而,这些用户生成数据中有相当一部分是垃圾数据,只有挖掘出那些真实数据或相关数据才能有助于研发。社会媒体数据不同于以往数据挖掘领域所处理的传统数据,因此需要研究新的计算方法来处理社会媒体数据。社会媒体数据噪声较大、格式灵活、长度各异、多媒体混杂。此外,实体之间的社会关系,或者说社会网络,构成了社会媒体数据不可分割的一部分。因此,有必要将社会学理论和研究方法与传统的统计方法和数据挖掘方法相结合。这可谓是社会媒体挖掘的大好时机。

社会媒体挖掘是一个快速发展的新领域。它是一门交叉学科,尤其是深深融合了计算机科学与社会科学。目前,关于社会媒体有一个活跃的社区以及大量文献。用户兴趣快速增长,利用社会媒体数据的需求也在不断加剧,因此迫切需要研发出工具来对大量的社会媒体数据进行分析。本书旨在应对社会媒体中的这些新挑战,适用于社会媒体方向的学生、研究者以及从业人员。通过本书的学习,可掌握社会媒体挖掘的基本概念和算法。

这个新兴领域中的研究者需要拥有不同领域的知识,比如数据挖掘、机器学习、文本挖掘、社会网络分析以及信息检索等。此外,还要经常查阅文献来了解社会媒体挖掘的最新发展。为了减轻研究者的压力,帮助研究者快速学习,我们利用多年的教学和研究经验来调研、总结、过滤、归类、融合社会媒体挖掘中不同的研究发现和基本概念,旨在通过本书提供一种简单的参考或一个起点,帮助研究者快速、全面地了解社会媒体挖掘的基础知识。社会媒体不仅产生了大量的用户生成数据,还为社会科学研究、商业发展以及理解人类和群体行为带来了巨大的潜力。如果你想在社会媒体上分享一条消息或一个网站,肯定想吸引社会媒体中那些同样对此感兴趣的用户的目光;如果你非常好奇在复杂的社会媒体世界中隐藏着什么或者谁是有影响力的人,可能想知道如何才能在庞大且混乱的社会媒体中找到这些信息;如果你希望在社会媒体中更好地为客户服务,肯定想使用有效的方法来更好地了解他们。而这些仅仅是社会媒体挖掘发挥作用的几个场景。如果这些场景中有一个符合你的情况,或者你只是希望学习一些有关这个新兴的社会媒体挖掘领域的有趣的知识,本书正适合你。我们希望本书能够帮助你实现处理大量社会媒体数据的目标。

本书网站及相关资源

本书网站及相关资源可以在http://dmml.asu.edu/smm获得。

该网站提供了本书的相关课件、作业、测试题以及示例程序,同时还包含与社会媒体挖掘相关的、公开可用的材料和资源的链接。

致教师

本书可作为高年级本科生或研究生教材,学习一个学期。虽然本书主要面向有计算机科学背景的学生,但具有概率、统计学以及线性代数基础知识的读者也很容易理解书中的内容。如果学生对某一章内容已有一定的了解,可以跳过该章或者进行课后复习。例如,如果学生上过数据挖掘或机器学习课程,那么可以跳过第5章。在时间有限的情况下,第6章到第8章应该进行深入讨论,而第9章和第10章既可以简短讨论,也可以作为课程项目的阅读材料。

Reza Zafarani

Mohammad Ali Abbasi

Huan Liu

亚利桑那州坦佩

2013年8月

目录

  • 译者序
  • 第1章 引言
  • 第一部分 基础知识
  • 第2章 图的基本要素
  • 第3章 网络度量 
  • 第4章 网络模型
  • 第5章 数据挖掘的基本要素 
  • 第二部分 社区和交互
  • 第6章 社区分析
  • 第7章 社会媒体中的信息传播
  • 第三部分 应用
  • 第8章 影响力和同质性 
  • 第9章 社会媒体中的推荐
  • 第10章 行为分析 
  • 参考文献