第 1 章 人工智能的过去、现在和未来

第 1 章 人工智能的过去、现在和未来

过去人们对人工智能做过哪些研究?人工智能今后又将走向何方?本章着眼于人工智能整体,在全书中起着提纲挈领的作用。

01 人工智能

人工智能在很多领域得到应用。本节,笔者将对普遍意义上的人工智能进行说明。

人工智能已遍布街头巷尾

近年来,大量与人工智能有关的图书出版,信息量逐渐膨胀。一些书也给出了人工智能的定义,这些定义本身并无对错之分,因为每个人对人工智能的理解不尽相同。

以模式识别为代表的程序是从什么时候开始进入智能时代的?对于这个问题的答案,每个人都有自己的理解,理解方式也因时代而异,而且在未来也可能会发生变化。

那么,人工智能到底是什么呢?

我们可以把人工智能理解为“人为地使设备或软件模仿人类的行为”。在此基础上发展而来的设备能够根据程序独立进行判断。另外,人工智能还包括设备按照自己的意志采取某种行动的情况(图 1-1)。

图 1-1 人工智能

人工智能本身并没有生物学方面的含义,在过去的人工智能热潮中也不曾涉及生物学。

过去,在表现某种智能行动方面,人工智能的实现方法和生物智能完全不同。人工智能实际输出的,也就是最终呈现在我们面前的,是自动控制的结果(图 1-2)。

图 1-2 自动控制的典型示例

人工智能随着时代的变化而发展。例如,在计算机出现的早期,简单的条件分支就是自动控制的主要功能,而现在,即便应用了复杂的理论,有些程序也无法称为人工智能(图 1-3)。

图 1-3 人工智能和自动控制的关系

02 人工智能的黎明时期

人工智能诞生的时代背景是什么?工程师是如何转向人工智能领域的?本节,笔者将讲解人工智能的黎明时期。

人工智能的诞生

1956 年的达特茅斯会议上首次出现了人工智能一词。再往前追溯 10 年,英国的艾伦·麦席森·图灵(Alan Mathison Turing)对人工智能的发展做出了诸多贡献。他的名字也通过图灵测试(the turing test)和图灵机(turing machine)流传至今。

图灵在 1950 年发表了论文《计算机器与智能》1。在这篇论文中,他对人工智能的发展与人工智能的哲学进行了深刻的讨论。事实上,图灵早在 1940 年左右就已经开始了对机器和智能的深入研究。

1原论文名为“Computing Machinery and Intelligence”。——译者注

在数学和计算机科学理论得到发展的同时,生理学领域的研究也取得了很大的进展。整合了生理学、机械工程和控制工程的控制论(参考小贴士)有了重大突破。把 cyber2 译为计算机就是因为控制论(cybernetic)这个词。

2cyber 现在作为前缀,代表与互联网相关或计算机相关的事物,即采用电子工具或计算机进行的控制。——译者注

小贴士 控制论

cybernetic 一词源自希腊语,意思是舵手。

在生理学领域,支撑神经网络算法的基础研究可分成两大类。

第一类是 all-or-none 型的信息传递模型3的相关理论。

3出自沃伦· 麦卡洛克和沃尔特· 皮茨所著的论文“A logical calculus of the ideas immanent in nervous activity”。其实就是 M-P 模型,它是一种利用神经元网络对信息进行处理的数学模型。——译者注

第二类是提倡突触可塑性(synaptic plasticity)的赫布理论(或赫布定律)。

突触可塑性

突触可塑性是指在通过突触传递神经递质时,突触的连接强度会因神经递质活动的强弱而改变的特性(图 1-4)。特别是在儿童的发育过程中,突触可塑性被认为与记忆和学习紧密相关。这些发现对人工智能的研究也产生了影响。

图 1-4 突触可塑性

当时刚出现的电子计算机以“辅助和代替人类”为目的,除了进行科学计算,还会对内容进行判断。

最初的人工智能程序通过二分类的堆叠来输出自动判断结果(图 1-5)。

图 1-5 决策树

人工智能和图灵测试

既然机器根据计算结果给出答案的目的是代替人类,那么我们必然会质疑这个答案到底是由人还是由机器给出的。

每个人都会犯错误,而机器按照人类制定的条件判断标准来运行,所以机器也会犯错误。有观点认为“机器的判断是正确的”,但我们必须明确这种观点成立的前提是“对程序的性能进行测试后,结果在合理的范围内”。

例如,飞机的飞行自动控制系统现在基本按照传感器的指示进行操作,由人类进行判断有时反而会发生事故(图 1-6)。

图 1-6 人为错误和自动驾驶

在人工智能研究的初期阶段,机器只能在有限的范围内进行判断和回答,但图灵认为终有一天,机器代替人类给出的回答将无法与人类自身的回答区分开来。简单来说,就是机器具备了思考的能力。这些都反映到了图灵测试中。

图灵把图灵测试中的问题换成了“机器能否实现人类的行为(思考行为)”。

图灵测试

图灵测试的过程如下所示。

测试者分别与一个人和一台机器进行对话,如果测试者不能确定对方是人还是机器,那么这台机器就通过了测试(图 1-7)。

图 1-7 图灵测试

将测试者与被测试者隔离,为了避免机器的声音影响测试结果,测试者只通过键盘和显示器等设备以文字形式向被测试者提问,然后判断对方是人还是机器。

在 2014 年的图灵测试大会上,一台俄罗斯的超级计算机伪装成 13 岁的男孩,回答了测试者输入的所有问题。其中有 33% 的测试者认为与自己对话的是人而非机器,这台计算机也成为有史以来首台通过图灵测试的计算机。在此之前人类已经开发了各种各样的人工智能程序,其中最接近图灵测试合格标准的是 ELIZA(1966 年)和 PARRY(1972 年)。两个程序都模仿了特定的人群。ELIZA 模仿的是心理治疗师,PARRY 模仿的是妄想型精神分裂症患者。

关于上述内容,我们需要注意的是,图灵测试用于测试机器模仿人类行为的能力,它不一定能测试出机器是否具有掌控思维的能力。例如,对于在解决需要具备创新能力的课题时所采取的智能行为,图灵测试就无法奏效了。另外,如果机器没有像人一样给出反应,即使它再“智能”,也无法通过测试。

03 人工智能的发展

人工智能领域发生了很多里程碑事件。下面,我们来看看人工智能的历史发展过程(图 1-8)。

图 1-8 1960 ~ 2010 年的人工智能历史

1960 ~ 1980 年:专家系统和第一次人工智能热潮

20 世纪 50 年代以来,基于使用了多个条件分支的自动判断程序,搭载了推理机的问题处理系统相继问世。专家系统就是其中之一,程序内部包含专家(expert)提供的知识与经验。

早期开发的专家系统 DENDRAL 能够利用物质的质谱分析结果,来识别有机化合物的分子结构(参照小贴士)。由此掀起了第一次人工智能热潮。

小贴士 DENDRAL

DENDRAL 是由斯坦福大学的爱德华·费根鲍姆(Edward Albert Feigenbaum)教授等人于 1965 年开始开发的专家系统。该专家系统能像化学家一样工作,即使用质谱分析法分析未知的有机化合物的质谱实验数据,并判断出该有机化合物的分子结构。DENDRAL 是世界上第一个专家系统。

在专家系统的基础上,当时相当于人工智能的自动判断处理程序又得到了进一步发展。

随着人工智能热潮的出现,人工智能框架问题(参照小贴士)也不可避免地成了人们讨论的焦点。框架问题是约翰·麦卡锡(John McCarthy)和帕特里克·海耶斯(Patrick J. Hayes)于 1969 年提出的。在信息有限的情况下,程序筛选所需信息的计算量非常庞大,这就导致原本可以解决的问题变得无法解决——即便在当下,这个问题也很难找到一个有效的解决方法。

在 20 世纪 70 年代,专家系统被引入制造系统。由此问世的医疗专家系统 MYCIN(参照小贴士)等开始试运行。

小贴士 框架问题

只能在有限范围内处理信息的机器人,无法处理所有实际发生的问题。

 

小贴士 MYCIN

MYCIN系统是在20世纪70年代由布鲁斯·布坎南(Bruce Buchanan)和爱德华·肖特利夫(Edward Shortliffe)开发的专家系统。该专家系统由 DENDRAL 衍生而来。

1980 ~ 2000 年:第二次人工智能热潮和神经网络的寒冬期

进入 20 世纪 80 年代后,随着计算机硬件成本的不断下降,复杂的大规模集成电路得以实现,计算机的计算能力由此实现指数级增长。这就是摩尔定律(参照小贴士)。

小贴士 摩尔定律

1965年,美国英特尔公司的戈登·摩尔(Gordon Moore)在他的论文中指出,大规模集成电路上可容纳的元器件数量每隔 18~24 个月便会增加一倍。

随着集成电路上可容纳的元器件数量的增加,计算机的存储区域持续呈爆炸式增长,主存储器中可存储的数据类型越来越多样化。人工智能领域的研究也因此受益,并发展到以国家为主导的持续提升计算机计算能力的阶段。人工智能迎来第二次热潮。

在此期间,神经网络也得到了快速发展。20 世纪 60 年代提出的单层感知器因为无法处理非线性分类问题而陷入低谷,由多个感知器(参照小贴士堆叠组成的多层感知器则解决了非线性分类问题。

但随后,因计算机性能方面的限制,第二次人工智能热潮遇到了瓶颈。自 20 世纪 90 年代开始,人工智能的研究陷入低谷。这一时期又称为人工智能的寒冬期

小贴士 感知器

感知器由弗兰克·罗森布拉特(Frank Rosenblatt)于1957年提出,是一种人工神经元和神经网络。

2000 ~ 2010 年:统计机器学习方法和分布式处理技术的发展

以 20 世纪 80 年代发展起来的神经网络(参照小贴士)为基础的人工智能研究,虽然在后期陷入了低谷,但是基于统计模型的机器学习算法等取得了稳步发展。

20 世纪 90 年代,基于贝叶斯定理(参照小贴士)的贝叶斯统计学被重新定义。21 世纪以后,开始出现了使用贝叶斯过滤器的机器学习系统,并逐渐普及(图 1-9)。贝叶斯过滤器的典型应用示例就是垃圾邮件过滤系统。除此之外,它还可用于语音输入系统中的降噪和语音识别处理。

图 1-9 贝叶斯定理和贝叶斯过滤器

小贴士 神经网络

神经网络的作用在于参考人脑,通过计算机仿真方法模拟其部分功能。

 

小贴士 贝叶斯定理

贝叶斯定理是皮埃尔 - 西蒙·拉普拉斯(Pierre-Simon marquis de Laplace)提出的关于条件概率成立的定理。对于通常情况下的概率和条件概率,下面的恒等式成立。

P(B~|~A)=\dfrac{P(A~|~B)P(B)}{P(A)}

使用统计学方法解决的课题可以分为两大类:分类预测。机器学习利用程序自动计算输入数据,以此来推导特征值,实现分类和预测的功能(图 1-10)。在多数情况下,这些特征值还需要数据科学家检测它们的构成要素和贡献率并进行深入分析,不过我们也可以通过构建模型使处理自动化。

图 1-10 机器学习的典型功能:分类和预测

机器学习的应用示例包括推荐引擎,以及使用了日志数据及在线数据的异常检测系统。

20 世纪 90 年代后期,随着互联网的普及,多媒体数据等大容量数据的应用变得越来越广泛(图 1-11)。因此,提高图像数据和音频数据处理效率的需求应运而生。

图 1-11 黑白二色→ 16 色→ 256 色→ 1677 万色的图画和动画

FPGA(Field-Programmable Gate Array,现场可编程门阵列)等嵌入式技术可以迅速实现视频等多媒体数据的压缩和转换等处理,但是需要根据处理对象的内容进行优化,这与面向普通计算机 CPU 的编程方法不同,需要我们另行学习。

为了灵活处理数据,过去人们使用的,是用于科学计算等领域的大型计算机(超级计算机)所提供的分布式计算环境。但 2000 年以后出现了 OpenMP(参照小贴士)和与 GPGPU(General-Purpose computing on Graphics Processing Units,通用图形处理器)相关的技术 CUDA(Compute Unified Device Architecture,统一计算设备架构),它们提供的是多核计算环境和异构计算环境,像计算机一样可以由个人来操作(当时还比较昂贵)。

小贴士 OpenMP

OpenMP 是进行并行处理的基础。

与按照指令执行的分布式处理机制一样,一些软件中也添加了分布式处理的管理机制。例如 Google 以 Google 文件系统(Google File System)为开端开发的 MapReduce 架构(图 1-12),还有 Yahoo! 在 MapReduce 的基础上开发的 Hadoop。分布式系统不仅可以为每个任务预定义计算资源,还能通过网络线路进行任务管理,所以能够随意地增减资源。

图 1-12 MapReduce 架构

从 2005 年左右开始,高效的分布式处理和摩尔定律所带来的计算机硬件的性能提升推动了神经网络研究的再次兴起。

2006 年,随着自编码器(参照小贴士)的出现,人工智能的发展进入了深度学习(参照小贴士)时代。

深度神经网络(Deep Neural Network,DNN)是一种支持深度学习的多层神经网络。当时,超过 5 层的神经网络就称为深度神经网络,因为受到计算机性能的限制,很难构建更多的层。到了 2010 年以后,就已经能构建出 100 多层的深度神经网络了。

小贴士 自编码器

自编码器是在2006年由杰弗里·辛顿(Geoffrey Hinton)提出的一种使用神经网络进行数据维度压缩的算法,可在机器学习中使用。

 

小贴士 深度学习

深度学习指计算机程序通过学习各种数据的特性,对数据进行分类和判别。深度学习的概念最初由辛顿等人提出,现在的深度学习远比当时的复杂。

2010年以后:深度神经网络带来图像识别性能的飞跃性提高,第三次人工智能热潮

以前,在图像识别精度方面,基于统计模型的机器学习要优于基于神经网络的机器学习,但在某个阶段之后,这种优势出现了颠覆性的逆转。最典型的示例就是 2012 年 ImageNet 大规模视觉识别挑战赛 ILSVRC 2012(IMAGENET Large Scale Visual Recognition Challenge)的图像分类任务。加拿大多伦多大学团队开发的基于深度学习的图像识别算法摘得桂冠(图 1-13)。

{%}

图 1-13 ILSVRC 2012 的图像分类任务结果

和第三名东京大学团队使用的统计机器学习算法相比,多伦多大学团队使用的深度学习算法将错误识别率降低了 10%,在业界引起轰动。人类的错误识别率约为 5%,而在 2015 年出现了错误识别率低于 5% 的算法。

基于深度学习的图像识别算法的有效性迅速得到认可。人们建立大型数据库来存储图像和元数据之间的关联,并提供给用户使用,因此在汽车上装载图像识别引擎的研究也逐渐活跃起来(图 1-14)。除了图像识别领域,深度学习在语音识别领域和自然语言处理领域也取得了一定成效,逐渐被应用到聊天机器人程序中。

图 1-14 图像识别引擎的应用领域

加速产业上的应用

汽车产业

快速发展的人工智能研究已经在各个产业中得到应用,其中包括从 20 世纪开始成为日本支柱产业之一的汽车产业。特别是在图像识别领域,人工智能作为自动驾驶技术必不可少的要素之一受到重视。以往主要推进的是除图像识别以外的汽车内置传感器和埋入式道路传感器装置等基础设施一体机的开发,后来图像识别精度的提高使汽车产业取得了飞跃性的发展。今后我们将不再局限于从单台车辆获得数据,而是收集多台车辆的加速度传感器采集的数据,预测全国范围的交通量,收集事故多发路段的信息,然后通过大数据分析,不断推动自动驾驶的实现。

广告产业

目前很多网站使用基于机器学习的推荐系统,向网站用户推送相关广告和新闻,以及优化广告投放。

我们可以把其中的推荐引擎理解为机器学习所做的预测结果。为了更加有效地对用户进行推荐,除用户访问的网站之外,购物网站的推荐引擎还会利用用户的购买记录等信息构建统计模型,实现有效推荐。

另外,网站上显示的相关信息也是推荐引擎的一种处理形态。在对主要内容和相关内容进行信息的相似度分析,并根据相似度来判断如何有效利用或限制这些信息(相同的话题没有意义,但也不能过度偏离),以及如何最大程度提升用户回流率(引导用户访问网站和促进用户购买)方面,优化处理显得尤为重要。

广告产业对系统的要求是提供有效的广告时间策略以及呈现高度相关的内容。预计今后包括深度学习在内的机器学习算法会在构建此类系统方面逐步得到应用。另外,开发出既能处理文本和数值数据,又能涵盖图像、视频和音频等多媒体数据(原始数据,而非艺术家的名字等标签或类别)资源的推荐引擎,将有助于提高推荐内容与用户喜好的匹配度。

BI 工具

企业在制定经营战略时必须预测销售额和利润。在此过程中,BI(Business Intelligence,商业智能)工具不可或缺。最初的 BI 工具可以追溯到 20 世纪 70 年代的计算机辅助决策支持系统。

随着可处理数据量的增加和计算机处理能力的提高,再加上为了迎合企业需求,BI 工具的预测准确率越来越高。

缩短统计周期是 BI 工具的一个典型特征。在商品的库存管理方面,很重要的一点就是最大限度地降低库存数量。在根据过去的走势预测未来的变化趋势时,如果预测周期较长,预测结果就容易出现偏差,所以要尽量缩短预测周期并反复进行预测。因此,原来主要的处理方式是批处理,但如今在线处理流处理的重要性急剧提升。

另一方面,预测涉及的数据对象趋于多样化。除地理特征人口系统动态特性社会心理特征以外,所在地区的天气、气温、附近的交通量等信息也是影响预测的重要因素。我们需要从海量数据中提取关联度较高的信息并进行预测,所以机器学习算法起着非常重要的作用。

过去靠个人经验所做的预测已经通过信息处理实现了机械化。进入 21 世纪后,开发者利用 Google Prediction API 开发了基于贝叶斯网络的缺失数据预测程序。后来,用户可以通过 Google BigQuery 上传大量数据进行分析并很快得到分析结果。另外,硬件系统的性能也得到提升,具体表现为 Apache HadoopApache Spark 等大规模分布式处理技术的灵活应用等。

将来,我们会开发出更多的系统来完成一直以来由人类实施的处理。比如,通过改善机器学习算法来有效检索各种类型的信息,同时进行数据清洗稀疏数据处理等。相信这些系统的开发能大大促进技术进步。

对话式人工智能

2000 年前后,在对话式人工智能领域,聊天机器人等机器人程序大受欢迎。这些聊天机器人虽然制作精良,但只能用来取悦用户,缺乏实用性。具备实用性的聊天机器人并没有通过机器学习等高级算法来实现,而是用了会提示用户按照流程图输入信息的系统。前面介绍了广告产业中主题模型的发展,随着这些自然语言处理模型在性能方面的提升,机器人程序得到改良,与人自然地进行对话成为可能。当然,翻译技术的发展也做出了很大贡献。再加上 2005 年以后计算机资源的扩展,大量的文本数据处理及特征提取得以实现,文本特征表示模型终于建立。这也是机器人能够自然与人对话的一个主要原因。

例如,微软于 2015 年发布的小冰 4 就通过深度学习技术逐渐实现了近乎自然的人机对话。

4微软发布的人工智能聊天机器人,中国版为小冰,日本版为 Rinna(りんな),美国版为 Tay。——译者注

在 2015 年至 2016 年,一些大型 SNS 网站向开发者开放了用于开发聊天程序的 API。预计今后自然语言处理领域的对话式人工智能在商业上的实用性会越来越高。

医疗护理辅助

IBM 公司开发的超级计算机沃森(Watson)包含利用了深度学习的系统。与其他系统不同,沃森使用的是认知计算(cognitive computing)系统。认知计算系统的价值体现在通过自然语言处理进行人机对话和提供决策支持上。

下面我们来看一下沃森在医疗领域的应用。

近几年,随着研究水平的不断提高以及参与研究的国家和机构的不断增多,学术领域分类越发细化,论文发表数量多到医生无法消化的程度。人们期待沃森能起到辅助诊疗的作用,具体来说就是让沃森读取大量的医学文献,根据患者症状,列出疾病的相关信息以及适用的药物和治疗方案。

特别是针对癌症和心脏病等常见疾病,时常会有新的论文发表或者有来自监管部门的指示。因此,如何与医生及其他医务人员顺利合作,如何与当局的规定进行比较调整,都是未来我们需要重视的地方。

机器学习的应用案例还包括影像诊断中癌症的早期发现、使用了腕带式测量设备的健康管理系统等。随着技术的进一步发展,今后或许能在全国范围内实现基于个人数据的私人定制医疗服务。

机器人产业

在机器人领域,包括机器学习在内的人工智能研究也得到了有效利用。在汽车产业中,人工智能的研究成果可作为交通工具来使用,而在机器人领域则可作为人类的助手,辅助移动身体,或替代人类完成某些工作。机器人虽然能够最大限度完成其擅长的重物搬运等工作,可一旦迅速转换到它不擅长的精细作业,就有些捉襟见肘了。要让机器人像人类一样自然地工作,还是有一定难度的。

为了解决这个问题,人们长期以来致力于开发一种能够通过自主学习来实现自我控制行动的人脑计算机。预计未来还会在开发中引入强化学习算法

除此之外,机器人未来也可能在儿童益智玩具和老年人生活支援服务等领域得到应用。生活支援的范围很大,除食材管理和根据气候变化提出行动方案之外,还包括预防阿尔茨海默病。我们知道,未来日本国内的劳动力人口会持续下降,人工智能研究除了用于辅助年轻人的工作,在如何保障老年人的健康生活,以及在健康状况不佳时如何保证生活质量(Quality Of Life,QOL)等方面,都有非常重要的作用。

人工智能的未来

人工智能在未来是否会拥有意识,现在我们还不得而知。但是,很多研发人员和工程师希望人工智能可以拥有意识。

数字克隆人是人工智能在未来的发展方向之一。数字克隆人是人类个体的思维方式和兴趣爱好的数字复制品,但是,数字克隆人的开发可能只是一种用于实现人格的技术。这与图灵测试的要求很像,如果我们能够实现“学习模仿人类”的技术,似乎就可以实现数字克隆人。2015 年左右,人们已经开发出用于实现此目标的传感技术,由此实现了很多事情,例如根据图像来推测面部表情,并将其与情绪关联等。今后利用传感技术模拟人格的尝试会越来越多。

此外,信息技术进步的速度按照摩尔定律呈指数增长,它同样遵循雷·库兹韦尔(Ray Kurzweil)提出的加速回报定律 5(the law of accelerating returns)。加速回报定律也涵盖了熵增定律的内容,所以该定律同样适用于信息量的增长。

5引自雷·库兹韦尔所著的《机器之心》,中信出版社 2016 年出版。——译者注

如何处理大数据

长期以来,数据处理系统的处理能力一直受限于计算机的运算能力,所以人类一直致力于用最少的信息量实现观察和控制事物,并迎合其发展趋势。然而,自 2010 年以来,我们不仅得到了包括各种传感数据在内的多种类型的数据,还得到了相应的数据处理工具。这就意味着我们在处理数据的同时,必须考虑这些持续增多的信息中有哪些是有用的信息、计算机要如何处理数据才能得到答案等问题。

技术奇点来临

库兹韦尔预计技术奇点将于 2045 年到来。虽然我们拥有通过机器学习系统从大量信息中寻找解决方案的方法,但仍然需要花费时间进行数据清洗等预处理。想让机器能够自主寻找解决方案,我们还有很长的路要走。

即使计算机能够处理和计算大量数据,并自主找到答案,也还是需要人类来设定问题,而且在设定问题和寻找答案的过程中,各种讨论和灵感都来源于人类(这是人类的特权,也是苦恼所在)。将来,把各种功能的小型人工智能程序组装到一起,让它们互相通信,共同协作,以此来解决更大问题的设想终会实现。这只是时间问题。

但是,即使机器萌生了意识,很多地方还有待讨论,比如是使用现有方法还是其他方法来让机器具备自行寻找答案的能力等。这为未来的人工智能研究增添了趣味性。

目录

  • 版权声明
  • 前言
  • 关于本书
  • 第 1 章 人工智能的过去、现在和未来
  • 第 2 章 规则系统及其变体
  • 第 3 章 自动机和人工生命程序
  • 第 4 章 权重和寻找最优解
  • 第 5 章 权重和优化程序
  • 第 6 章 统计机器学习(概率分布和建模)
  • 第 7 章 统计机器学习(无监督学习和有监督学习)
  • 第 8 章 强化学习和分布式人工智能
  • 第 9 章 深度学习
  • 第 10 章 图像和语音的模式识别
  • 第 11 章 自然语言处理和机器学习
  • 第 12 章 知识表示和数据结构
  • 第 13 章 分布式计算
  • 第 14 章 人工智能与海量数据和物联网
  • 作者简介