语音识别技术的研究与应用主要包括声纹识别、内容识别、语音标准识别和语种识别4个方面。声纹识别是根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的一门技术,声纹识别的作用主要有两个方面:一是说话人辨认(Speaker Identification),主要用于判断某一语音材料是由若干发音者中哪一人所说,属于“多选”的识别;二是说话人确认(Speaker Verification,主要用于确认某一语音材料是否由指定的某个人所说的,属于“一对一”识别。声纹识别赖以实现的基础是蕴含于语音信号中的说话人发音特征,这一技术强调说话人的个性,而不考虑以语音为物质外壳的话语意义。从本质上说,声纹识别技术属于“生物因子”认证范畴。声纹同指纹有着类似的属性。每个人的指纹都是唯一的,而声纹也是人的个性特征,很难找到两个声纹完全相同的人内容识别是对语音材料所承载的实际意义的识别。内容识别有别于声纹识别,声纹识别主要着于眼语音的物理属性和生理属性,以辨认或确认说话人为目的;而内容识别则着眼于语音的社会属性,以识别语音信号所承载的话语内容为目的。话语内容识别比声纹识别要困难得多。说话人的语音通常会受到母语、方言、发音器官和发音状态等诸多因素的影响,正是因为说话人语音特征各异,为声纹识别提供了可能性。但是,要将具有个性的声纹与具有共性的语法和语义模型相匹配,要通过词语切分、词性标注、结构分析和语境理解等程序,达到正确识别话语内容则是一个相当复杂的处理过程。语音标准识别是通过个人语音材料与语音标准模型的对照,对个人语音标准状况做出评判,并指出发音不标准的问题。这一技术可广泛应用于语言教学和语音标准测试。语种识别是对语音材料所承载的语种特点的别识,是话语内容识别和机器翻译技术的重要基础。当计算机系统对多语种综合语音材料或不明语种单一语音材料进行识别时,要先把语音材料分拣到不同语种的识别器中进行识别,这时,可以通过语种识别技术进行初步处理。
语音识别的方法主要包括基于声道模型和语音知识的方法、模式匹配方法、人工神经网络方法3种。基于声道模型和语音知识的方法起步较早,在语音识别技术提出的最初就出现了相关研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的程度。模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ),统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络、径向基函数网络(RBF)及新兴的小波网络。一个完整的基于统计的语音识别系统可大致分为语音信号预处理与特征提取、声学模型与模式匹配、语言模型与语言处理3部分。语音识别目前在自适应能力、健壮性等方面存在一些问题比如IMB的 Via Voice和 Asiaworks的SPK都需要用户在使用前进行几百句话的训练以让计算机适应用户的声音特征。大量的训练加大了用户和系统的负担,并且某些应用无法对单个消费者进行训练,限制了语音识别技术的进一步应用。环境杂音或嗓音对语音识别效果影响非常大,目前在公共场合很难实现有效的语音识别。另外,目前的声学模型和语音模型只允许用户使用特定语音进行特定词汇的识别,对语言混合识别和无限词汇识别很难奏效。
内容来源:黄海《虚拟现实机技术》