由互联网X实验室主办的【X开放日】于5月11日下午成功举办,7个来自中国互联网最前沿的创新成果参加路演,来自不同领域的近300位嘉宾参与活动,并与演讲嘉宾热情互动。

第二位演讲嘉宾是中国科学院计算技术研究所研究员陈云霁教授,他是首届国家自然基金、青年拔尖人才计划的入选者。从2002年起陈教授一直从事处理器的研究工作,在国际顶级学术会议发表论文40余篇,申请专利近30个。他带来的演讲是《寒武纪神经网络计算机》。以下是演讲内容速记。

enter image description here

【陈云霁】大家下午好,非常荣幸能够在这里介绍我们最近做的成果。我们主要是做处理器结构的。在过去大概五六年我一直在做人工智能结合的研究,所以这次报告是介绍这方面的工作。演讲有三个方面,首先是神经网络的背景,是我们神经网络计算机发展的一个历程,还有是我们自己的工作,最后是一篇讲座。

我在讲神经网络之前必须说一下认知。认知是人类认识客观事物、获得知识的活动,知觉、记忆、学习、语言、思维和问题解决等过程。认知将会是计算机主要的任务。

如何解决认知任务呢?我们通过对计算机编程的方法,告诉计算机每一步怎么走,在进行认知任务的时候是非常困难的,就像刚刚余凯介绍了很复杂的认知。

我们人本身怎么去做认知,就是靠大脑去做这个事情。大脑怎么做?大脑有很多神经元,组成这样的网络,我也看过一些生物学方面的书,基本上说每一个神经元它有什么变化,钠离子浓度引起钙离子浓度变化,基本上对于我们生物学外行来说看得很困难。

但是1943年有一个心理学家,还有一个数理论学家,对人脑的结构进行数据抽象,抽象成为了右边这个样子,这就是我们常见的结构。基本上它有一个多层,然后层和层之间通过凸出连接起来,这个就是乘法或者什么样的东西,这就是我们简单的背景。

实际上神经网络计算机并不是今天才有的东西,应该说上个世纪80年代就有,上世纪80年代提出了非常强有力的算法,那个时候神经网络进入了第一个热潮,当时是一个热潮,有一个公司推出了他们的产品,包括像TI这样很有名的公司都做了这方面的计算机。但是当时这些计算机,所谓神经网络计算机基本上都死掉了,在90年代左右,死掉的原因主要有三个方面。

一、算法。

二、智能机,随着第五代计算机的浪潮的失败,大家都去做智能机了,而不是专注于认知的意义。

三、摩尔定律的红利。2000年你搭了摩尔定律的顺风车,性能就能提高1.5倍。现在的情况已经完全不一样了,因为前面的三个原因,算法、应用、电路工艺,当时都有很大的问题,并且现在脑科学也是被大家看得越来越重,那么我们来看一下。2006年开始,到现在有一个著名的浪潮就是深度学习,那么这里边有一个技术,大家用得比较多,就是分层预训练,这可以成为最好的算法之一,很多时候都会比较好。

这里面我简单说一下深度学习的原理,比如说我们要识别一个树,对这个树的照片我们第一层可能就是把它的边缘提出来,第二层是缩放,第三层是锐角、形状弄出来,最后抽象出树这样的概念。

这里面我们还做了这样的工作,我们做结构,很多时候不具备神经网络的重要性,我们把全部用神经网络重写,使得我们在这个研究人的过程中认识到了神经网络的重要性。

还有认知应用已经开始越来越重要了,刚才余总讲得非常多了,在我们云端等都有各种各样的应用,这里面有很多都是用神经网络完成的。

我们还有一个就是电路工艺,电路工艺上个时代是组织神经网络计算机应用的重要因素,现在恰恰反过来了,我们知道通用的性能基本不再增长了,还有一个很有意思就是暗硅,这使我们不可以全部打开,上面这个框框是我们打开的,下面这个是没有打开的,碰到适合的应用再打开的。

还有生产工艺的缺陷,就是工艺越来越好,在细刻的时候出现一些问题,神经网络有很自然的对缺陷的容忍性。

最后一个是脑科学,我们知道美国都有很多脑科学的计划,这和神经网络有很重要的联系。比如说IBM有一个cognitive,还有Intel现在也在做这方面的工作。

这是我们的计划,为什么叫这个名字(寒武纪)?实际上大家了解一些历史时代就知道,寒武纪大爆炸是非常重要的转身,生命进化最重要的转折点,我们希望我们能成为机器智能爆炸性增长的时代。

这是我们多年来在做的一些工作,做过的一些基于处理器认证、芯片鉴定这样的工作。这是我们最新的芯片,英文名叫做电脑,电脑是这样的,就是中英文的英语双关。我们讲了百度有200个神经网络,谷歌也做过20个这样的神经网络。如果我们要去做计算机,或者做芯片支持他的话,我们需要什么样的一个芯片呢?首先这个芯片必须能够支持这么大的规模,其次这个芯片必须要有很广的应用面,我们在手机上也可以用,在服务器上也可以用,总而言之我们需要的是一个非常小的加速器,处理任意大小的神经网络。比如说1W或者0.1W在我们的手机上也可以用得上。

方寸优化为中心的设计,我们在硬件里面最大的功耗,实际上发挥在访存带宽的能力、能量,最好化访存次数。这上面是0.1大小,它的功耗接近10,反而你遇到的功耗接近100倍,我们要让访存和贷宽的能力尽量地发挥,这里面有一些东西就跳过了。

最后我们说一下结论,我们有两类数据,一个是输入和输出的神经元,这是我们经过对于算法的分析,最后得到了左上角这个图象的结果,我们芯片可以支持不同神经网络的算法,我们用一些实际的性能,和CPU相比,基本上是它的性能100倍,功耗因为我们只有0.5W左右,要比CPU略快一些,功耗是CPU的1/100。

CP在这里面占了很小的比例,大部分是NFU,和SB,这CP是用来控制的东西。大部分芯片的面积被这个存储给占掉了。

下面是我们现在做的,刚刚是单核非常小的东西,如果我们用在云服务器上,要做到比CPU大100甚至1000倍的东西,我们要做一个超大网络处理器。

最后可能有一些哲学性的东西,因为我是一个教授,所以可能没有办法去关注,可能还有一点闲暇时间去想这些奇奇怪怪的东西。

随着生命不断的进化,智能不断提升。智能很显然它会是我们信息科学技术发展最高的目标。我们知道人的智能是生物智能里面最高的,但是依然有很多限制。比如人的基因进化就很慢,经过了晚婚晚育和计划生育之后,我们人的进化变得越来越慢了,以前15年就是一代,现在可能25年30年一代了。

所以说,我们的理想是向强人工智能方向走,它到底有没有感情,它到底有没有思维,这些问题我们先不关注,强人工思维怎么帮助我们思考?它能够达到这个目标的话,就足以使得我们生物计划有一个上升时期。

有一个大师说过,大脑不过是一个肉做的机器。

这里面很有意思的现象,就是地层硬件的能力,实际上是存在预知的,比如说从猿到人,基本上脑容量增大了3倍,可以说是一个爆炸性增长。这个阈值会在哪里?我们做一些专门的研究。这里面可能有一些比较细节的东西,我们到底应该怎么做?有两种做法。一种叫做Spiking,是完全反射到人脑来的,这个东西对于大脑模拟是非常适合的,它对于学习的研究实际上是不适合的。还有一类就是Artificial,我们做的深度学习,各种各样在工业上用的网络,这都称之为Artificial,实际上它是不能够做大脑模拟的。

有一些专门原来模拟大脑的,比如说IBM的Blue,都是面向大脑模拟的,这里面我们应该选哪一个呢?我们有两个。第一个就是大脑模拟的,实际说它并不会直接带来强人工,一个大脑直接放在这里,你不对它进行训练它实际上什么都不会,比如说人,如果你不对他训练的话,他不会说话也没有语言的能力,如果你把一个大脑抄得一模一样,你不把学习做好的话,它也什么都不会。第二个,我们有广泛的应用,可以在各个云端上用上,我们选择不是像IBM的脑计划那种去做的。

所以我们现在已有了这样的神经网络,我们希望在今后的5年中能够做出这样的大机器来,在每秒钟处理1T以上的时候,就是超大功能的神经网络,它不是模拟大脑的,但是具有非常强的机器学习能力。我们在这方面还是有非常深厚的积累,就是我们现在正在致力于其中的一个项目。

最终,我们的目标是在那个时候,要比当中最快要处理的网络还要快1千倍,因为这是专用的,专用的要比通用的快1千倍。这是我们现在做的一些工作的参考文件。好,谢谢大家!


互动环节

Q1:陈老师您好,您对于强人工程是如何定义的?给大家介绍一下可以吗?谢谢。

A:好,这个问题应该说没有一个非常清晰的一个答案,但是现在一般的看法就是说强人工,它能够说一个10岁或者15岁的人,能够有接近认知的能力,那么我们说他就是强人工。那么它到底有没有感情,有没有思维,这是我们不关注的。我们举一个例子,你给他一个高考卷子他能考上清华,他就具备强人工这样的能力。

Q2:我请问一下陈教授,我知道你们在超级人工智能方面在国内比较领先,10年以前长沙的国防科技大学也是领先的。我们国家面临的国防形势比较严峻,在这方面,你们的和他们的活动比较起来,或者说在国防方面有什么应用前景?谢谢。

A:他们现在做的超级计算机做得非常好,曾经做到世界第一,应该是我们国家的一个骄傲。但是我们做的目标是不一样的,他们是面向科学计算这样的东西,我们是面对人工智能的。在国防建设方面,我想这里面有一个很重要的应用,我不知道算不算国防建设。我们并不知道传过来的视频到底是不是反动的,如果有一个特别的计算机,能够动态识别是不是反动的,我们就不会去把他挡掉,我想这是改善民生的。

评论

本文目前还没有评论……

我要评论

需要登录后才能发言
登录未成功,请修改提交。

× 102