第1章 引言

随着社会媒体(social media)的蓬勃发展,世界各地数以亿计的网民在互联网上交流经验、分享观点、发布帖子以及从事大量的日常活动,使得互联网成为一个充满活力与朝气的领域。这些海量信息由公民记者①(citizen journalist)收集、组织和发布,同时又被无数的用户阅读和传播并给予即时反馈。社会媒体使得我们可以随时随地与他人沟通和交流,并且可以站在一个全新的角度,在空前的规模下观察人类的行为。社会媒体平台为我们提供了一个绝好的机会,可以从海量的数据中挖掘人类行为模式,进而对人类个体进行全面的剖析和理解,这在社会媒体出现前是根本无法完成的任务。此外,通过更好地理解个体,我们可以设计出能够更好地适应个体需求的计算系统,进而更好地为个人乃至整个社会服务。这个新兴的社会媒体世界没有地域的界限,并且不断地创造着海量的数据。因此,我们正面对着大数据带来的一个巨大问题,即“沉浸在数据的海洋中,却渴望着知识”。数据挖掘能使我们摆脱这一困境吗?

然而遗憾的是,社会媒体数据与数据挖掘中我们所熟悉的传统数据有着显著的差别。除却极大的数据规模,这些主要由社会媒体用户创建的数据噪声很大且完全无结构化,还蕴含着丰富的像好友关系、关注与被关注关系这样的社交关系。这些新型数据迫使我们去探索新的计算数据分析方法,将社会理论与统计和数据挖掘技术相结合。对于新技术的迫切需求催生了一个新的跨学科研究领域——社会媒体挖掘。

① 百度百科词条,所谓“公民记者”,是指在新闻事件的报道和传播中发挥记者作用,却非专业新闻传播者的普通民众。“公民记者”所体现的是“参与式新闻”的理念,即“民众在收集、报道、分析和传播新闻和信息的过程中发挥主动作用”(http://baike.baidu.com/view/1901275.htm)。——译者注

目录