近来“大数据”话题热火朝天,我虽已过不惑之年,也禁不住“忽悠”,想了解一下“大数据”到底是个什么东东,以免落后于时代太远,因此选购了《大数据时代》一书。这两天终于有点空闲,粗略地读了前50页。

首先映入眼帘的是一大堆意见领袖的推荐,由此想到前段时间网络大V薛蛮子被抓后的言论,大致意思是说看粉丝的回复如皇帝批阅奏折。说到权利或者说影响力,大致没人道德高尚到能够自我约束的程度,除了透明、监督和制约恐怕别无他法。英国人阿克顿说:All power tends to corrupt and absolute power corrupts absolutely. Great men are almost always bad men, even when they exercise influence and not authority。翻译成中文的大致意思是:“权利让人堕落,绝对权利绝对让人堕落。大人物大多不是什么好鸟,即便他们不利用自己的权利,而只是利用其影响力。”曹丕逼汉献帝让位的故事世人皆知,想想曹丕也太不地道,权势熏天后篡位那是人之常情,况且古人都说“天下有德者居之”呢,但你不能给自己贴金还顺带骂人不带脏字,给人封个庙号“献帝”,就是把皇位献出来。主动把老大的位置让出来,不是万不得已谁会这么傻呀!尧舜是古代君王的典范,一直以来他们主动禅让都被传为佳话,最近有位学者说他们这样做是因为大权旁落,实属为保全家人的无奈之举,感觉这种说法符合人性和逻辑。

接着令我惊讶的是,前言说作者在《科学》、《自然》等著名杂志上公开发表了100多篇论文(虽然没说具体有多少篇发表在《科学》或《自然》上,可至少也有两篇吧)。记得上学时听一位院士做报告,这位院士虽年过六旬,可谈及她在《自然(Natural)》杂志上发表论文时,激动之情相比于怀春少女找到了真命天子有过之而无不及(要知道,在这两本顶级学术杂志上发表论文的国人,一年也没几个),可你看看人家,在顶级学术杂志上发表论文跟玩儿似的!

接下来看到的是“数据科学家”。说到科学家,总让人觉得特别了不起,不是什么人都配得上这样的称呼。多年前,国内就将杂志《The Economist》的中文译名从“经济学家”改为“经济学人”了,估计也是认为不是什么人只要在经济学领域讨饭吃就配叫经济学家的——有人说,大陆配得上“经济学家”称号的不超过5人。在英文字典中,对scientist的解释是:a person who is trained in a science and whose job involves doing scientific research or solving scientific problems;在百度百科中,对“科学家”的解释如下:“科学家是指专门从事科学研究的人士,包括自然科学家和社会科学家这两大类。所有自然科学和社会科学的研究人员,达到了一定的造诣,获得了有关部门和行业内的认可,均可以称之为科学家。”也就是说,scientist是科研人员的统称,只有达到了一定造诣、获得有关行业内认可的科研人员才配“科学家”的称号。就像我们这些翻书的,都叫译者,连“翻译匠”都不配,如果自称“翻译家”岂不要遭人鄙视并笑掉大牙。但无论是译者还是翻译家,英文大致都是translator。

上面说了这么多,连正题都没进入,现在来说说我已看完的第1章。该章的主题是样本=全体,可列举的例子总让人觉得站不住脚。就拿谷歌利用搜索词预测流感的例子来说吧,难道得流感的人都会去谷歌搜索吗?在你选择数据的同时,就已将其他数据剔除在外,因为你的数据最多只涵盖了网民,可毕竟还有很多人不上网或者得了流感不搜索。这就像国内通过网络调查房价满意度一样,你已经将不上网还有不主动参与调查的人排除在外,这样获得的数据再多又能说明什么问题呢?所以说,所谓的“全体”最多只能说是可获得的全部数据,但没有消除数据获取方式本身固有的偏差。