基于MediaPipe手势算法，这家公司让你用手语控制AR/VR-VR-形象思维VR

基于MediaPipe手势算法，这家公司让你用手语控制AR/VR

# 技术前沿 2021-05-08 15:58 0 351 作者：形象思维VR

在许多线上会议中，利用AI算法实现多语言机器翻译已经越来越常见了。那么，如果是用手语交流，又该如何进行翻译呢？对于不懂手语的人来讲，通过AI算法进行机器翻译，实用又方便。但是手语并非基于语音，因此无法以来语音识别实现转换，而是需要用到计算机视觉技术。

目前，基于计算机视觉的手势识别方案越来越多样化，而且效果逐渐成熟。比如，谷歌在2019年开源的MediaPipe手势识别算法，就已经可以识别单手21个骨骼节点，甚至在2020年底更新后，可识别手指之间的遮挡。

而利用MediaPipe算法，机翻手语技术公司SignAll研发了一种基于手势识别的手语翻译SDK，它不仅可以翻译手语，还可以将手语作为一种输入方式，听障人士无需打字就能输入指令和文字。

据了解，SignAll SDK可作为一种手语识别基础，帮助开发者在自己的应用中加入手语翻译功能。此前，SignAll的解决方案依赖多颗摄像头和配有彩色标记的手套，而现在结合MediaPipe算法，只需要手机的一颗摄像头，无需追踪手套即可实现手语识别。除此之外，SignAll还发布了手语学习app：《Ace ASL》，可以让你一边学手语，一边通过手势识别验证学习结果。

关于MediaPipe

MediaPipe是一种基于机器学习技术的手势识别算法，其特点是准确率高，支持五指和手势追踪，可根据一帧图像推断出单手21个立体节点。与目前市面上较先进的手势识别技术相比，谷歌的全新技术不需要依赖台式机来计算，而是在手机上就能进行实时追踪，并且还能同时追踪多只手，可识别遮挡。

据悉，谷歌在开源MediaPipe时就曾表示：该算法可识别基础手语，可实现手势操控，用于AR/VR。因此，将MediaPipe用于手语识别本身就是自然的场景，SignAll是在原本算法基础上进一步对手语识别进行优化。

细节方面，MediaPipe框架有3个模型组成，包括：手掌识别模型BlazePalm（用于识别手的整体框架和方向）、Landmark模型（识别立体手部节点）、手势识别模型（将识别到的节点分类成一系列手势）。

其中，BlazePalm是一个可识别单帧图像的模型，主要为Landmark模型提供准确剪裁的手掌图像，在经过训练后手掌识别准确率可达95.7%。这大大降低了对旋转、转化和缩放等数据增强方式的依赖，让算法将更多计算能力用在提高预测准确性上。此外，BlazePalm可识别多种不同手掌大小，还能识别手部遮挡，并且能通过对手臂、躯干或个人特征等的识别来准确定位手部。

而Landmark模型，则是在BlazePalm基础上识别到的21个立体节点坐标，这些节点之间的位置遮挡也可被识别。

接下来，通过手势识别模型，从Landmark提取的数据来推断每根手指伸直或弯曲等动作，接着将这些动作与预设的手势匹配，以预测基础的静态手势。这些预设手势包括一些美国、欧洲、中国通用的数数手势，以及竖大拇指、握拳、OK、“蜘蛛侠”等等。

基于MediaPipe的手语识别系统

SignAll称，其手语识别系统通过多层计算来识别手语，比如：底层识别包括从2D和3D摄像头提取关键的手部、身体和面部数据。在基于标记手套的方案中，底层识别会通过识别手套的颜色来创建3D手掌模型，而利用MediaPipe的Hands、Pose和Face Mesh三个功能，无需手套也能识别面部、手势和姿态。

在训练算法过程中，SignAll在多个不同的位置分别放置摄像头和深度传感器，并将采集到的数据过滤，在MediaPipe算法识别到的关键点基础上适配原本手套方案中使用的彩色标记，以此来兼容SignAll现有的算法。据悉，这种多摄像头方案可从多个角度捕捉手势，并生成准确的关键点位置信息，可识别手指遮挡或靠近。