在虚拟现实系统中,语音应用技术主要是指基于语音进行处理的技术,主要包括语音识别技术和语音合成技术,它是信息技术处理领域的一项前沿技术。
语音识别技术
语音识别技术是指计算机系统能够根据输入的语音识别出其代表的具体意义,进而完成相应的功能,一般的方法是事先让用户朗读有一定数量文字、符号的文档,通过录音装置输入到计算机,于是计算机就准备好了用户的声音样本。以后,当用户通过语音识别系统操作计算机时,用户的声音通过转换装置进入计算机内部,语音识别技术便将用户输入的声音与事先存储好的声音样本进行对比。系统根据对比结果,输入一个它认为最“像”的声音样本序号,这就可以知道用户刚才念的声音是什么意义,进而执行此命令。因此通过语音识别技术,计算机可以“听”懂人类的语言。
一个完整的语音识别系统可大致分为以下三个部分。
(1)语音特征提取。其目的是从语音波形中提取出随时间变化的语音特征序列。
(2)声学模型与模式匹配(识别算法)。声学模型通常将获取的语音特征通过学习算法产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
(3)语言模型与语言处理。语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。对小词表语音识别系统,往往不需要语言处理部分。
一般来说,语音识别的方法有3种;基于声道模型和语音知识的方法、模式匹配的方法,以及利用人工神经网络的方法。
(1)基于声道模型和语音知识的方法起步较早,在语音识别技术提出的初期,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。
(2)模式匹配的方法发展比较成熟,目前已达到了实用的阶段。在模式匹配方法中,要经过特征提取、模式训练、模式分类和判决三个步骤。常用的技术有动态时间归正、隐马尔可夫理论和矢量量化技术三种。
(3)利用人工神经网络的方法是20世纪80年代末期提出的一种新的语音识别方法。人工神经网络本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强大的分类能力和输入输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。
2.语音合成技术
语音合成技术是将计算机自己产生的或外部输入的文字信息(如文本文件内容、Word文件内容等),按语音处理规则转换成语音信号输出,使计算机流利地读出文字信息,使人通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读给人类听。这种将文字转换成语音的技术称之为文语转换技术(Text To Specch,ts),也称为语音合成技术。
一个典型的语言合成系统可以分为文本分析、韵律建模和语音合成三大模块主要功能是根据韵律建模的结果,从原始语音库中取出相应的语言基元,然后利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音。
常用的语音合成方法,按照合成方法分类,分为参数合成法、基音同步叠加法和基于数据库的语音合成法。参数合成法是通过调整合成器参数实现语音合成的。基音同步叠加法是通过对时域波形拼接实现语音合成的基于数据库的语音合成法是采用预先录制语音单元并保存在数据库中,再从数据库中选择并拼接出各种语音内容来实现语音合成的。
按照技术方式分类,分为波形编辑合成、参数分析合成以及规则合成三种。波形编辑合成是将语句、短语、词或音节作为合成单元,这些单元被分别录音后进行压缩编码,组成一个语音库。重放时,取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式也称为录音编辑合成。参数分析合成是以音节、半音节或音素为合成单元。按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成个合成语音库。输出时,根据待合成的语音信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中,通过合成参数的控制,将语音波形重新还原出来。规则合成存储的是较小的语音单位,音素、双音素、半音节或音节的声学参数,以及由音素组成音节,再由音节组成词或句子的各种规则;当输入字母符号时,合成系统利用规则自动地将他们转换成连续的语音波形。
内容来源:苗志宏 《虚拟现实技术基础与应用》