定义:唇读是指通过识别说话者的口形变化,尽可能地读出说话者的说话内容,是对唇动的理解过程。唇读技术是指用计算机对说话人口形变化的理解,广义讲是对人脸表情的理解,属于计算机视觉识别的范畴。
随着计算机多模态融合技术的日益进步,将视觉信息和语音信息相融合成为选项,这时说话人口形变化的视频信息与语音信号相结合,共同完成语音识别,从而大大提高在噪声环境下的语音、语义的识别率已成为研究者的共识。
从计算机学科来看,唇读识别的先期处理为唇部区域定位分割,其后识别处理的关键因素主要有以下3个。
(1)唇部特征的提取问题。
(2)唇读识别算法问题。
(3)语音、视觉融合算法问题。