定义:新一代人机界面更加强调以人为中心的原则,使用户能随意运用各种感觉通道和效应通道。对于可视形式的目标选择和操纵任务,任何其他通道,如手和头,都是在视觉通道指导下进行的,即用户首先扫描定位到感兴趣的对象,再引导其他通道的选择或操纵动作因此视线跟踪在人机交互中占有重要地位,具有直接性、自然性和双向性的特点,视线(visual line)反映人的注意方向,这是将其用作计算机输入的前提。视觉交互兼顾了输入输出双向性特点,视线所指通常反映用户感兴趣的对象,而传统手动输入装置是根据视觉指导进行操作的。可以想象,避开其他通道及交互装置而直接检测视线输入方向和位置来进行交互具有直接性和自然性的特点。眼睛看物体的过程是转动眼球使物体出现在视网膜的中央凹中,因此眼球的位置指示了我们注视场景中的特定区域。视线运动通常表现为点到点的跳跃式扫描( saccade),而并非平滑移动(这只在追踪运动物体时才会发生)。例如,阅读时人眼在一行中通常包含47个跳动)定位(jump-fixation-)的动作,注视一般持续200~600ms,只是我们通常并未在意,但是我们的眼球为看清物体总是需要不停地做轻微的抖动(jitter),其幅度一般小于1度只有在追随视野中移动的物体时才会出现平滑的眼动而不是突然的扫视。因此,利用视线进行书写和画图这样精细的动作是不可行的,换言之,我们不能利用眼动产生的轨迹。有的系统要求用户的头静止不动,对人机对话没有显著意义。
视线跟踪的早期研究可以追溯到古希腊,但是真正使用仪器设备对视线跟踪进行观察和实验是从中世纪才开始的。1901年, Dodge和 Cline开发出第一台精确的、非强迫式的眼追踪设备。由 Applied Science Laboratories制造的 Model3250R视线跟踪器允许用户的头运动,是一种非接触式的远距离视线跟踪系统。该系统能同时跟踪角膜反射和瞳孔轮廓形状,视线可根据两者之间的关系计算得到。其工作原理如下:光源发出的光线经红外滤光镜过滤后只有红外线可以通过,经过半反射镜后,部分红外线到达反射镜,再经反射镜反射到达眼球,眼球对红外线的反射光经同一反射镜反射到达半反射镜,其中有部分红外线通过半反射镜到达瞳孔摄像机,从而得到眼球的完整图像,再经软件处理后获得视线运动的数据。瞳孔摄像机与光照系统经半透镜在同一坐标轴上工作,伺服机构控制反射镜用于补偿用户头的运动。
人眼的注视点由头和眼睛的方位共同决定,Stiefelhagen等人将视线跟踪技术按其所 借助的媒介分为以硬件为基础和以软件为基础两种以硬件为基础的视线跟踪技术的基本原理是利用图像处理技术,使用能锁定眼睛的眼摄像机,通过摄入从人眼角膜和瞳孔反射的红外线连续地记录视线变化,从而达到记录分析视线跟踪过程的目的。以硬件为基础的方法需要用户戴上特制的头盔或者使用头部固定支架,对用户的干扰很大。视线跟踪技术及装置有强迫(intrusiveness)与非强迫(non -intrusiveness-)、穿戴与非穿戴式和接触式(如 Eyeglass-mounted-)与非接触式Remote)之分,其精度从0.1度到1度。以软件为基础的视线跟踪技术是先利用摄像机获取人眼或脸部图像,然后用软件实现图像中人脸和人眼的定位与跟踪,从而估算用户在屏幕上的注视位置,其精度相对来说低很多,只有2度左右。
眼动测量方法主要有角膜反射法、瞳孔角膜反射向量法、虹膜巩膜边缘法、接触镜法、双普金野象法、眼电图法等。角膜反射法利用角膜反射落在它上面的光,当眼球运动时,光以变化的角度射到角膜,得到不同方向上的反光。角膜表面形成的虚像因眼球旋转而移动,实时检测出图像的位置,经信号处理可得到眼动信号。
瞳孔-角膜反射向量法通过固定眼摄像机获取眼球图像,利用亮瞳孔和暗瞳孔的原理,提取出眼球图像内的瞳孔,利用角膜反射法校正眼摄像机与眼球的相对位置,把角膜反射点数据作为眼摄像机和眼球的相对位置的基点,瞳孔中心位置坐标就表示视线的位置。瞳孔在不同配置的红外光源的照射下会产生明暗效应。通常,红外光源的轴线和照相机镜头同轴时会产生亮瞳孔效应;反之,在两者不同轴时,瞳孔比眼睛的其他部分更暗一些。
虹膜-巩膜边缘法在眼部附近安装两只红外光敏管,用红外光照射眼部,使虹膜和巩膜边缘处左右两部分反射的光被两只红外光敏管接收。当眼球向左或向右运动时,两只红外光敏管接收的红外线会发生变化,利用这个差分信号测出眼动。双普金野象法通过对两个普金野图像的测量可以确定眼注视位置。
接触镜法将一块反射镜固定在角膜或巩膜上,眼球运动时将固定光束反射到不同方向,从而获得眼动信号。接触镜法是比较精确的眼睛运动测量方法,但这是一个具有侵性的方法,会引起眼睛的不舒适,甚至会影响使用者的视力。
普金野图像是由眼睛的若光学界面反射所形成的图像。角膜所反射出来的图像是第一普金野图像,从角膜后表面反射出来的较微弱的图像是第二普金野图像,从晶状体前表面反射出来的图像是第三普金野图像,由状体后表面反射出来的图像称为第四普金野图像。双普金野象法使用红外光照射形成的第一和第四普金野反射,测量这两个反射的相对位置并分析图像数据,可以计算出眼睛相对于头部的朝向。
眼电图法产生在20世纪70年代,曾被广泛使用。它使用电极测量眼窝附近皮肤的电压差来实现对眼睛运动的测量。眼球在正常情况下由于视网膜代谢水平较高,因此眼球后部的视网膜与前部的角膜之间存在数十毫伏的静止电压,角膜区为正,视网膜区为负。当眼球转动时,眼球的周围的电势也随之发生变化。将两对氯化银皮肤表面电极分别置于眼睛左右、上下两侧,会引起眼球变化方向上的微弱电信号,经放大后得到眼球运动的位置信息。
将视线应用于人机交互的基本出发点希望将它作为一种更为自然的直接指点设代替或部分代替鼠标器的功能,但由于用户视线运动的随意性而造成计算机对用户设备 图识别的困难,即用户的每次眼睛定位都可能引发一条并非想要的计算机命令,这便是所谓的“米达斯接触(Midas Touch)”问题。因此,如果不解决米达斯接触问题,试图用视线完全代替鼠标是不现实的,用户也不会习惯于用视线来控制设备。如果鼠标器光标总是随着用户的视线移动,则很可能会引起用户厌烦,因为用户通常希望能随便地看着什么而不必非“意味着”什么,更不希望每次移动视线都可能发出一条计算机命令。在理想情况下,应当在用户希望发出控制指令时,界面及时地处理用户的视线输入,而相反时则忽略视线的移动。可行的解决方法是结合实际的应用场合,采取一些特殊措施,研制出相应的交互技术。例如采用其他输入通道(如键盘或语音)与之配合可能是行之有效的办法近年兴起的多通道用户界面研究试图解决这样的配合问题。
2012年出现的 SensEye技术可以让玩家用眼神来操作游戏。它是利用前置摄像头捕捉到的画面进行计算机视觉算法分析,从而推算出眼睛看的位置,它计算得足够精确,因而可以成功利用视线来实现激活屏幕、网页浏览以及玩游戏等功能。