定义:由于视觉信息的局限性,单独的唇读系统难以有大的实用价值,所以大部分研究者都是将唇读作为语音识别的辅助手段,将语音识别与唇读相结合,构建语音视觉识别系统。所以语音视觉识别领域中一个重要的研究课题就是语音信息与视觉信息的融合,融合算法可以分为两大类,即特征融合、决策融合。
1)特征融合
特征融合是基于训练一个单一的分类器(如同单独语音或单独唇读中的分类器一样),然后将声音特征向量与视觉特征向量连接成一个大的向量。主要有两种技术,即特征连接、特征加权。
特征加权的方法是寻找一个视觉特征到声音空间的数据再到数据的映射,称为data-to-data,或者两类特征的一个新的共同空间,并接着对得到的特征进行线性结合。声音特征的加强,基于视觉输入或声音一视觉特征的连接,就属于此类融合。
2)决策融合
决策融合是分别对声音特征与视觉特征训练分类器,然后利用这两个分类器单独的似然性(Likelihood),将这两个分类器线性地结合到一个联合的语音视觉识别评分系统中。虽然许多特征融合技术都能够提高语音一视觉识别系统的性能,但却不能明确地对每一种模式的可靠性进行建模,而由于音频和视频流中具有不同的语音信息,这种建模就显得非常重要。从另一个角度来说,决策融合框架提供了一种机制,通过借鉴分类组合的思想能够捕获这些模式的可靠性。已经有多种不同的分类器组合技术被用于语音一视觉识别,但到目前为止,应用最广泛的决策融合技术还是典型的单独声音和视觉分类器的结合,使用一个并行结构,自适应组合权重,分类评分级别信息。这些方法通过使用适当的权重对两个单独分类器的log- ikelihood进行线性组合,获得最有可能的讲话分类或词序列。
除了以上两类主要方法研究人员对结合了两者优点的混合模型也进行了应用。有试验证明,这种混合的融合方法性能优于特征融合和决策融合。