专题栏目:ARVRMR虚拟现实

TTS | TTS是什么意思?

TTS ,是 TexttoSpeech (语音合成技术)的缩写。

定义: 语音合成技术是指人工合成语音的技术。达到计算机输出地语音可以准确、清晰、自然的表达意思。一般方法有两种:一是录音/重放,二是文-语转换。

特点:在虚拟现实系统中,语音合成技术的运用可以提高系统的沉浸感,同时弥补视觉信息的不足。 

语音合成技术是一门综合性的前沿新技术,该技术相当于给机器装上了人工嘴巴它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术。在VR系统中,语音合成技术与传统的录音一回放设备(系统)有着本质的区别。它实际上包括了语音识别文语转换和电子控制下的机械发声等三大关键技术。

由于交互的需要,用户可以向VR系统自由地用语音或者是文字传递信息,而VR系统则可通过语音合成技术用声音反馈给用户。

由于语音与普通声音不同,具有特殊的波形纹理和周期,并且由于语言和人有较大的差异,使机器在语音识别过程中需要进行语音信号的预处理、特征提取、模式匹配等几个步骤的数据处理。预处理包括预滤波、采样和量化、加窗、端点检测、预加重等过程。其中特征参数提取是语音信号识别中最为重要的一环。

该技术可将外部输的文字信息转变为可识别的语音输出,附属于语音合成技术的一部分。从原理上看,该技术包括语言学处理、韵律建模和声学处理(即合成语音)。

语音合成的理论基础是语音生成的数学模型。该模型表现的语音生成过程是在激励信号的激励下,声波经谐振腔(声道),由嘴或鼻辐射声波。因此,声道参数、声道谐振特性一直是研究的重点。基于上述原理,目前有几种语音合成方法,如共振峰合成法、LPC参数合成法、 PSOLA合成技术、LMA声道模型合成法等。

将语音合成与语音识技术结合起来,可以使用户与计算机所创建的虚拟环境进行简单的语音交流,这在VR环境中具有突出的应用价值,特别是当使用者的双手正忙于执行其他任务,双限无暇注视图像时,这个语音交流的功能就显得尤为重要了。

发表评论

相关文章