前言

语音识别是指将人说出的话转换为文本的技术。在计算机刚刚问世的 1950 年前后,语音识别技术还是痴人说梦,而之后的几十年,它一直在循环往复中跌宕前行。人们每隔几年就会对其充满期待,以为它能够登上实际应用的舞台,然后又因其无法广泛普及而不得不回到基础研究。正是因为在这个过程中研究者们不断积累优秀的成果,如今语音识别才能在实际应用的舞台上华丽绽放。例如,便携设备的信息输入、会议记录的自动生成、医疗机构电子病历的自动生成等,语音识别正逐渐成为社会生活中不可或缺的技术。

本书通过图解的方式对语音识别技术进行尽可能简单的解释。现在的语音识别技术,其主流方法基于统计学,所以如果对它进行准确且严谨的说明,就要罗列晦涩难懂的数学公式。因此,尽管本书只讲解基本概念,也不能完全避免数学公式的出现,但本书会用插图来辅助说明公式背后的思路,希望能够帮助读者直观地理解其中的含义。

另外,本书没有将语音识别限定在“将语音转换成文本”的传统范畴内,而是在这一基础之上,还讲解了从语音识别技术到人机对话技术的演进过程和方法。读者在学习了语音识别的原理后,想必会有兴趣用听写软件或虚拟代理对话系统来开发一个有用或者有趣的东西,这时才是真正学习的开始。这时既可以仔细研读软件的说明书,也可以进一步学习更难的教材,还可以挑战深受好评的专业书籍。

如果本书可以带领读者进入语音识别的大门,我将深感荣幸。

笔者

2014 年 9 月

目录

  • 前言
  • 第 1 章 开篇
  • 第2章 什么是语音
  • 第 3 章 统计模式识别
  • 第 4 章 有限状态自动机
  • 第 5 章 语音特征的提取
  • 第 6 章 语音识别:基本声学模型
  • 第 7 章 语音识别:高级声学模型
  • 第 8 章 语音识别:语言模型
  • 第 9 章 语音识别:搜索算法
  • 第 9 章 语音识别:搜索算法
  • 第11章 语音识别:使用WFST 进行语音识别
  • 第12章 语义分析
  • 第13章 语音对话系统的实现
  • 第14章 终篇