专题栏目:ARVRMR虚拟现实

语音合成技术 | 语音合成技术是什么意思?

定义:语音合成技术是将计算机自己产生的或外部输入的文字信息(如文本文件内容Word文件内容等),按语音处理规则转换成语音信号输出,使计算机流利地读出文字信息,使人通过“听”就可以明白信息的内容。也就是说,使计算机具有了“说”的能力,能够将信息“读”给人类听这种将文字转换成语音的技术称之为文语转换技术(Text To Speech,TTs),也称为语音合成技术。

一个典型的语言合成系统可以分为文本分析、韵律建模和语音合成三大模块。主要功能是根据韵律建模的结果,从原始语音库中取出相应的语言基元,然后利用特定的语音合成技术对语音基元进行韵律特性的调整和修改,最终合成出符合要求的语音

常用的语音合成方法,按照合成方法分类,分为参数合成法、基音同步叠加法和基于数据库的语音合成法参数合成法是通过调整合成器参数实现语音合成的。基音同步叠加法是通过对时域波形拼接实现语音合成的。基于数据库的语音合成法是采用预先录制语音单元并保存在数据库中,再从数据库中选择并拼接出各种语音内容来实现语音合成的。

按照技术方式分类,分为波形编辑合成、参数分析合成以及规则合成三种。波形编辑合成是将语句、短语、词或音节作为合成单元这些单元被分别录音后进行压缩编码,组成一个语音库,重放时,取出相应单元的波形数据,串接或编辑在一起,经解码还原出语音。这种合成方式也称为录音编辑合成。参数分析合成是以音节、半音节或音素为合成单元。按照语音理论,对所有合成单元的语音进行分析,提取有关语音参数,这些参数经编码后组成一个合成语音库。输出时,根据待合成的语音信息,从语音库中取出相应的合成参数,经编辑和连接,顺序送入语音合成器。在合成器中通过合成参数的控制,将语音波形重新还原出来。规则合成存储的是较小的语音单位,如音素、双音素、半音节或音节的声学参数,以及由音素组成音节,再由音节组成词或句子的各种规则;当输入字母符号时,合成系统利用规则自动地将它们转换成连续的语音波形。

发表评论

相关文章