1.2 挖掘领域的新挑战

社会媒体挖掘是一个新兴的研究领域,其中有很多亟待解决的难题。由于有了不同学科的概念和理论、基本原理,以及最先进算法的前期储备,我们可以站在巨人的肩膀上来着手解决这些具有挑战性的难题,并且开发出创新性的数据挖掘技术和可扩展的算法。总体而言,可以将社会媒体看成由社会原子(也就是个体)、实体(例如内容、站点、网络等),以及个体与实体之间的相互作用所构成的世界。社会学理论和社会标准在管理和控制着个体与实体之间的相互作用。为了更加有效地进行社会媒体挖掘,我们通过收集个体和实体的相关信息,衡量它们之间的相互作用,发现其中一些特定的模式来更好地理解人类的行为。

挖掘社会媒体数据是一项挖掘带有社会关系的用户生成内容的任务。这一数据①为社会媒体挖掘提出了新的挑战。

大数据悖论(Big Data Paradox)。毋庸置疑,社会媒体数据的规模是非常巨大的。然而,当我们聚焦到一个个个体时,例如要对某个人进行相关推荐,我们经常会发现针对这一个体能够获取的数据非常少。为了能够更有效地进行挖掘工作,我们必须充分利用社会媒体的特性并且使用它的多维度、多资源和多站点数据,将信息整合并进行充分的统计分析。

获取足够的样本(Obtaining Sufficient Samples)。获取数据的一种常用技术手段是使用社会媒体站点提供的应用程序接口(Application Programming Interfaces,API)。我们每天获取到的数据是非常有限的。如果不知道人群的分布特点,如何才能知道我们的采样是可靠的,并且可以代表全体数据?又如何能够保证我们从社会媒体挖掘中得到的结论能够揭示真正的人类行为模式,进而促进我们的研究和商业开发?

噪声消除谬误(Noise Removal Fallacy)。在经典的数据挖掘文献中,一个成功的数据挖掘操作必须要有大规模数据预处理过程和去噪过程,以避免出现“垃圾数据输入,垃圾数据输出”这样的情况。由于社会媒体数据自身的一些特点,它包含了很大一部分噪声数据。对于社会媒体数据,我们注意到如下两个重要的观察结果:(1) 盲目地去除噪声数据会加剧大数据悖论问题,这是因为去噪的同时也会将有价值的信息过滤掉;(2) 对于噪声数据的定义是复杂且相对的,因为这取决于我们要完成什么样的任务。

评价困境(Evaluation Dilemma)。数据挖掘中常用的模式评价方法是收集准确、客观的数据用于验证。例如,一个数据集可以分成训练集和测试集。只有训练集被用来学习,而测试集则当作标准答案进行测试。然而,在社会媒体挖掘中往往没有一个标准的答案。如何评价从社会媒体中挖掘出来的模式,给我们提出了一个看似难以逾越的挑战。另一方面,如果没有可靠的评价手段,如何才能够保证我们挖掘出来的模式是正确的呢?

本书涵盖了一些基础概念和基本原理,它们将帮助读者思考和设计出可以解决社会媒体挖掘固有挑战的方案。

  ① 数据具有幂律分布,但是往往数据不像在数据挖掘中假设的那样独立同分布。

目录