定义:语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能。一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入到计算机,于是计算机就准备好了用户的声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输人的声音与事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“像”的声音样本序号,这就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类的语言。
一个完整的语音识别系统可大致分为以下三个部分。
(1)语音特征提取。其目的是从语音波形中提取出随时间变化的语音特征序列
(2)声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(式)进行匹配与比较,得到最佳的识别结果
(3)语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分
一般来说,语音识别的方法有3种:基于声道模型和语音知识的方法、模式匹配的方法以及利用人工神经网络的方法。
(1)基于声道模型和语音知识的方法起步较早,在语音识别技术提出的初期,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。
(2)模式匹配的方法发展比较成熟,目前已达到了实用的阶段。在模式匹配方法中,要经过特征提取、模式训练、模式分类和判决三个步骤。常用的技术有动态时间归正、隐马尔可夫理论和矢量量化技术三种。
(3)利用人工神经网络的方法是20世纪80年代末期提出的一种新的语音识别方法。人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。