在许多线上会议中,利用AI算法实现多语言机器翻译已经越来越常见了。那么,如果是用手语交流,又该如何进行翻译呢?对于不懂手语的人来讲,通过AI算法进行机器翻译,实用又方便。但是手语并非基于语音,因此无法以来语音识别实现转换,而是需要用到计算机视觉技术。
目前,基于计算机视觉的手势识别方案越来越多样化,而且效果逐渐成熟。比如,谷歌在2019年开源的MediaPipe手势识别算法,就已经可以识别单手21个骨骼节点,甚至在2020年底更新后,可识别手指之间的遮挡。
而利用MediaPipe算法,机翻手语技术公司SignAll研发了一种基于手势识别的手语翻译SDK,它不仅可以翻译手语,还可以将手语作为一种输入方式,听障人士无需打字就能输入指令和文字。
据了解,SignAll SDK可作为一种手语识别基础,帮助开发者在自己的应用中加入手语翻译功能。此前,SignAll的解决方案依赖多颗摄像头和配有彩色标记的手套,而现在结合MediaPipe算法,只需要手机的一颗摄像头,无需追踪手套即可实现手语识别。除此之外,SignAll还发布了手语学习app:《Ace ASL》,可以让你一边学手语,一边通过手势识别验证学习结果。
关于MediaPipe
MediaPipe是一种基于机器学习技术的手势识别算法,其特点是准确率高,支持五指和手势追踪,可根据一帧图像推断出单手21个立体节点。与目前市面上较先进的手势识别技术相比,谷歌的全新技术不需要依赖台式机来计算,而是在手机上就能进行实时追踪,并且还能同时追踪多只手,可识别遮挡。
据悉,谷歌在开源MediaPipe时就曾表示:该算法可识别基础手语,可实现手势操控,用于AR/VR。因此,将MediaPipe用于手语识别本身就是自然的场景,SignAll是在原本算法基础上进一步对手语识别进行优化。
细节方面,MediaPipe框架有3个模型组成,包括:手掌识别模型BlazePalm(用于识别手的整体框架和方向)、Landmark模型(识别立体手部节点)、手势识别模型(将识别到的节点分类成一系列手势)。
其中,BlazePalm是一个可识别单帧图像的模型,主要为Landmark模型提供准确剪裁的手掌图像,在经过训练后手掌识别准确率可达95.7%。这大大降低了对旋转、转化和缩放等数据增强方式的依赖,让算法将更多计算能力用在提高预测准确性上。此外,BlazePalm可识别多种不同手掌大小,还能识别手部遮挡,并且能通过对手臂、躯干或个人特征等的识别来准确定位手部。
而Landmark模型,则是在BlazePalm基础上识别到的21个立体节点坐标,这些节点之间的位置遮挡也可被识别。
接下来,通过手势识别模型,从Landmark提取的数据来推断每根手指伸直或弯曲等动作,接着将这些动作与预设的手势匹配,以预测基础的静态手势。这些预设手势包括一些美国、欧洲、中国通用的数数手势,以及竖大拇指、握拳、OK、“蜘蛛侠”等等。
基于MediaPipe的手语识别系统
SignAll称,其手语识别系统通过多层计算来识别手语,比如:底层识别包括从2D和3D摄像头提取关键的手部、身体和面部数据。在基于标记手套的方案中,底层识别会通过识别手套的颜色来创建3D手掌模型,而利用MediaPipe的Hands、Pose和Face Mesh三个功能,无需手套也能识别面部、手势和姿态。
在训练算法过程中,SignAll在多个不同的位置分别放置摄像头和深度传感器,并将采集到的数据过滤,在MediaPipe算法识别到的关键点基础上适配原本手套方案中使用的彩色标记,以此来兼容SignAll现有的算法。据悉,这种多摄像头方案可从多个角度捕捉手势,并生成准确的关键点位置信息,可识别手指遮挡或靠近。
在兼容性方面,尽管手套方案与无手套方案依然存在一些差异,但足以在无手套方案中,利用已经标记的30多万个手语视频进行算法培训。
结合MediaPipe框架
在结合MediaPipe的手势识别功能后,SignAll又继续利用MediaPipe框架对多个平台进行定制和规模化应用,实现对Windows、iOS、安卓、浏览器等客户端的兼容。
不过,为了能够在单颗摄像头方案中实现准确的手语识别,因此SignAll需要加入额外的算法逻辑,将单颗摄像头捕捉到的2D数据转化为3D手势。比如:根据摄像头移动来动态识别3D手势,等等。
此外,还需要重新训练3D手势识别算法,在原来的训练视频基础上,进一步标记更多细节。于是,SignAll可以通过处理过的动捕数据,模拟手指、骨骼、面部特征在各个角度的样子。
目前,SignAll的手语识别算法支持手机端等平台,不过其性能依然受不同摄像头配置和算力影响。而功能性上,它可以用来输入人名、签名、填写地址、点餐等等。或者,也可以在多人视频会议中,帮助不懂手语的人进行翻译。
总之,手语识别和翻译可作为语音输入之外的另一种输入方式,尤其是对于听障人士,是一个有价值的应用。如果用手语作为AR/VR头显的输入方式,甚至可能进一步提升听障人士远程沟通效率。
来源:青亭网