在如今如火如荼的人工智能大潮下,概率论和统计学的知识正在AI研究中发挥着越来越重要的作用。如果你关注近年来的机器学习,那么不管你是吃过猪肉还是看过猪跑,相信你对下面这些词都会很面熟:贝叶斯、聚合、信息度量、似然、回归、残差…… 但是你在使用这些概念的时候有没有考虑过这些概念从何而来?那些公式为何如此?而统计学又到底是什么?为啥能够在人工智能研究中扮演重要的作用?

统计学七支柱

《统计学七支柱》正是一本揭示这些重要概念来龙去脉的书,让我们从人类探索和掌握统计学的历史过程中深入的了解统计学概念形成的过程并理解统计学的作用。


均值与英尺

毕达哥拉斯学派在公元前280年已经掌握了均值的3种类型。求一组数的算术平均值,是现在小学三年级的学习内容,我们在日常生活中也常常把“平均多少多少……”挂在嘴边。不过,有多少人仔细思考过这个“平均多少多少……”的真实含义呢? 16英尺 书中给了一个很有意思的例子——英尺(foot)的确定方式:在教堂礼拜之后留下16位市民代表,他们鞋头对着鞋跟,站成一条线,这条线的长度就是一根(测量用)16英尺木棒的长度。

第一章的例子都指向同一个问题(难题):如何概括一组相似但不完全相同的测量

统计学给出的方法是 —— 定向减少或压缩数据,我们可以通过丢弃信息而真正获得信息!


铸币的精度

大概很多人都听说过牛顿当过英国皇家铸币厂的厂长,而且一干就是30年。 1英镑

硬币的重量和成色是有皇家标准的。为了监督铸币厂成功达到规定的标准,有专人通过试验检验铸币厂的产品。如果是一枚一枚的称显然工作量太大,怎么办?有统计学知识的我们自然会想到抽样 —— 生产中,工人每天都会选择一些货币放入“货币检验箱”,以便日后检验。皇家标准专门指定了目标重量(用T 指代)以及一个称为“公差”(remedy,用R 指代)的可接受限度。如果重量低于T - R,铸币厂的厂长就必须支付相应的罚金,早期的检验处罚很严厉,甚至会威胁砍断厂长的手。

牛厂长为了完成任务(不被剁手),同时也发现研究货币和搞微积分研究一样深奥和充满挑战,于是通过仔细研究认为:每分钟印币机的打压次数、每一枚银币的重量以及所用原料、每一台机器固定时间内的产量等等都应该被精确化的计算。他甚至精细到了熔化锅的使用次数。经过一番努力,铸币产能和铸币精确度的提高终于让牛厂长松了一口气,他甚至自豪地说:“这种精确是前所未有的,为政府省下了数千英镑”。


我的统计学习回忆

除了小学计算均值以外,最早和概率和统计沾边的是高中时代,大概是老师过于强调题海战术和做题技巧,我反正是一直没搞明白为什么要去计算把白球和黑球放到一起、然后要么去计算把抽出的球放回去再抽、或者是不把球放回去再抽有什么意义。到了大学里,“概率与数理统计”这门课的老师也是讲得相当乏味,搞得我甚至逃课不愿意去上统计学 —— 直到离考试还有不到两个星期的时候,我才着急忙慌的跑到图书馆试图找些什么灵丹妙药来补救。

机会的数学

或许是运气或许是“天意”也可能纯粹就是“机会”,别的叫“统计学”、“概率论”的书都被借光了,于是我只借到了这本没有写着“统计”、“概率”字眼的科普书。临时抱佛脚也好、死马当活马医也好,不管用什么词来形容我当年的心态,这本不到200页,没有一道习题的小册子我一个星期就读完了。而且读完之后仿佛开了天眼,原来如同天书一般的概率和统计学概念都可以轻松的理解了。再翻开教材的时候,那些原来看都看不懂的题都变成了小菜一碟,到了考前,那些一课不落的室友们反倒要来请我帮讲题😄

可惜的是,陈希孺院士这本小册子印数只有两千册,而且绝版,我也只能复印了一本,一直留在身边😢 。


统计学书籍推荐

从《机会的数学》这本书开始,用概率和统计的思维来考虑问题成为我做事做决策的重要习惯,所以遇到统计学方面的好书都要收下。

从入门来说,我认为《机会的数学》是最佳读物,可惜已然绝版。所幸图灵这本《程序员的数学2:概率统计》也是不错的入门读物,尤其适合程序员阅读。另外Head First系列的《深入浅出统计学》也是不错的入门书。

统计学史方面,依然是陈希孺院士的《数理统计学简史》,可惜也是绝版。所以当我读完这本《统计学七支柱》,才赫然发现这是市面上唯一能买得到的统计学史书。

正统教材方面,图灵出的书就相当丰富了,用“统计”或者“概率”来检索,能找到好几十本,就不一一列举。目前我非常期待的是这本《普林斯顿概率论读本》,希望能早日见面📖

普林斯顿概率论读本