人机自然交互技术 | 人机自然交互技术是什么意思？-百科释义-形象思维VR

人机自然交互技术 | 人机自然交互技术是什么意思？

# 百科释义 2020-04-22 17:53 0 2,797 作者：形象思维VR

定义：在虚拟现实系统中，我们致力于使得用户可以通过眼睛、手势、耳朵、语言、鼻子和皮肤等等感觉器官来和计算机系统中产生的虚拟环境进行交互，这种虚拟环境下的交换技术就称之为人机自然交互技术。

--------------------------------------------------------------------------------------------------------------------

延伸阅读：

不管是有意识的还是无意识的，谈到自然人机交互，人人心中都有一个或清晰或模糊的理解。这些形形色色的理解都各有各的道理，但往往又有不尽然的地方。要探讨什么样的界面是属于“自然”的，就不妨先从人们常见的一些理解出发，看看它们各自正确和不足的地方在哪里。

自然人机交互等于“新”模态界面吗？

的确，许多自然人机交互的成功例子，譬如微软的体感游戏设备（Kinect）、Surface交互桌面和任天堂的Wii游戏等等，都运用了手势、语音、多点触控等交互模态，甚至同时结合了多种模态。那么，是否使用了这些模态的界面就一定是“自然”的？恐怕不尽然。

我想不少人都能举出使这些“自然”模态不自然的场景。譬如语音操控：很适合于私人空间，而在公众场合却可能带来尴尬。再如手势界面：大家对电影《少数派报告》中主人公挥舞双手操作大屏幕界面完成每日工作的场景也许不陌生，这几乎成了大众心目中自然手势界面的代表。

然而据这一场景的设计者说，在电影拍摄过程中，身体健硕的男主角却因为不堪长时间举着双手的疲劳，不得不用钢丝吊着胳膊完成拍摄。这直接印证了手势界面对于日常工作场合并不一定自然，尽管它在Kinect家庭游戏中早已备受欢迎。相反，一些较为传统的交互模态，譬如鼠标和键盘，在其特有的使用情境中却有着强大的生命力。

其实，自然人机交互并不是一个崭新的概念，而是自计算机诞生之日就存在，并不断地发展。作为计算机同行，一定对计算机界面更迭的历史都耳熟能详：从穿孔卡片到命令行再到图形界面，每一代界面的出现都比前一代更为自然和直观，但也都花费了相当长时间才成为主流。

与之前的主要针对桌面计算机和工作环境而设计的界面相比，今天的用户界面所面临的是多样化的使用情境：移动、游戏、社交等等不一而足。而在何种情况下选择何种模态进行交互才是最自然的，这是每个人机交互从业者必须面对的问题。

自然人机交互等于模仿人的界面吗？

在科幻电影中，经常会出现计算机模仿人的语音与用户进行交流的场景，有时计算机甚至会模拟人的形象，以虚拟助手的形式出现在屏幕上或现实世界中。

无疑，这样的拟人化界面可以让用户与计算机交流就像与他人交往一样，很多情况下的确会感觉更为自然和亲切，甚至有可能在人与计算机间建立情感上的联系。它特别适用于用户其它交互渠道（譬如手眼）被占用，或是需要计算机提供智能化帮助的时候。

但这种方式也有局限，在日常生活中，许多时候我们所做的事情并非与人交流，而是直接去操纵物理世界：比如直接拿起筷子吃饭就会比告诉别人怎么把食物喂到嘴里更为自然。同理，对于某些活动，用户直接操控界面也会比间接地通过拟人化交流更为自然和高效。

自然人机交互等于模仿物理世界的界面吗？

那是不是模仿人与物理世界交互方式的界面就更加自然？实际上，当前通行的许多界面模式，都是建立在物理世界概念的基础上的，比如Windows图形界面和文件夹组织结构，就是对真实办公桌的一种模仿。还有不少研究人员探索了如何把物理模型引入用户界面用于驱动交互的过程，甚至把真实物体作为界面的一部分，通过操作物理实体与计算机进行交互，即实体用户界面（tangible user interface）。

这些基于物理世界规则的界面能让用户完全地按照操作真实物体的方式与计算机交互，省去了不少学习时间，在一定意义上提供了最大限度的自然。

但如果纯粹模仿物理世界，也会遇到瓶颈，那就是真实世界本身受到各种物理定律和客观条件制约，我们在复制它的种种直观属性的同时，也复制了它的种种限制与不便。这在某些情况下恰恰牺牲了计算机的灵活性，使用户失去了软件界面本来所能提供的自由空间。

而在这一点上，大家熟悉的多点触控界面中用两个手指操作图片或者其它虚拟物体的手势，并没有拘泥于物理操作，而是在平移和旋转这两个完全符合物理常规的操作之中，加入了缩放这一在真实世界几乎不可能的操作，形成了一个无缝的自然交互方式——多数用户在使用它的时候可能甚至从来没有意识到这一点。可以说，自然人机交互应当源于真实，高于真实。

自然人机交互等于不用输入设备的界面吗？

如果我们关注最近的一些被称为自然人机交互的产品，无论是使用手势、语音、触控，甚至是脑电波，他们的共性似乎是不需要专门的输入工具，而用身体的某一部分来直接进行操作。这是否是一切自然人机交互的大势所趋？

一方面，人的手和身体本身就是极为灵活的工具，不需辅助就可以胜任许多通用型的任务，这正是今天许多无需输入设备界面的基础；但另一方面，物理工具的发明恰恰标志着人类的进化。

各式各样的工具造就了人类从事各种专门活动的能力，而每一种工具的设计和使用方法都最大可能地为其支持的活动做了专门的优化，本身就是“自然人机交互”的典范。

最好的例子莫过于形形色色的笔：比起用手指写字，用笔写字实际上更好地利用了人多个手指灵活配合和控制的能力，大大提高了书写的准确和丰富性。同样的道理，在今天的计算机使用中，特别是对于许多专门性的活动，一套设计合理的输入设备（例如数字笔）也可以延展人的能力，从而提供更加自然的界面。

上述各种理解有一个共性，那就是它们都是将某一类特定的交互模式等同于自然人机交互。而实际上，“自然”并不是一个绝对的概念，无法抛开情境来下结论。上述提到或没提到的每一种交互模式都在某些使用情境中成为自然界面的典范，但在另一些情境下却又可能显得不那么自然。

在尚未了解界面所要支持的用户、活动和环境的前提下，几乎无从判断它的自然与否。正如人机交互研究的一位先驱比尔•巴克斯顿(Bill Buxton)所说，“不论是什么东西，都对某些事情最好，而对另一些事情最糟。”

那么，自然人机交互能否有一个普适的标准？

一些研究人机交互的同行提出了一个有趣的问题：自然用户界面这个词，究竟是自然的“用户界面”还是“自然用户”的界面？乍看起来这是个文字游戏，答案也许并不重要。但这个问题的提出，为回答前一个问题指出了一条方向，那就是对自然人机交互的衡量，并非取决于界面的交互模式，而是取决于用户自身的体验。

自然源于体验/经验

在英文中experience既有体验又有经验的意思。而在讨论自然的用户体验时，正要从用户的经验说起。这乍听似乎有些矛盾：自然人机交互不应该要求用户没有任何经验吗？不错，对界面本身而言，让用户在没有经验的前提下上手，让学习过程尽量缩短，这正是自然人机交互的主要优势之一。而这里要谈的，是另一种经验——对现实生活的经验。

具体解释之前，先讲讲我的两位人机交互同行亲身经历的故事。

一位印度的同行为当地用户设计了一组用数字笔操作的界面。在进行用户测试时，他对其中一位用户说：“请拿起笔碰一下屏幕。”出乎他意料的是，这一看起来十分简单自然的操作，居然出了问题：这位用户没有用笔尖，而是把笔横过来整个贴在了屏幕上！经询问才知道原来他不识字，也从没用过笔。

而另一位欧洲的同行为家庭用户在交互桌面上开发了一套软件，包括一些直观的手势交互，例如用两个手指相反方向移动做打开的手势来打开一个虚拟的储物箱。当他向用户家庭演示时，他想考考这个家中正上小学的孩子：“你试试看怎么打开这个箱子？”孩子二话不说，直接用食指在箱子上双击！

从这两个例子可以明显地看出，对于用户而言什么是自然并不等于与生俱来，而是在很大程度上取决于它们之前的生活经验：前者因为没有用笔的经验，“自然”的操作对他毫无自然可言；而后者由于从小与电脑和鼠标打交道，“不自然”的操作对他却是再自然不过。

同样的道理，我们平时觉得自然的事情，不论书写、语言、手势，还是触摸，恰恰是来自于若干年积累下来的经验或者有意识无意识的人为训练，当然也包括对真实世界物理规律的经验，和对已有计算机界面模式的经验。这些训练和经验，有些是较为广泛地为所有人所共享的，比如物理规律；而有些则与用户所属的社会文化群体息息相关，正像上边所举的两个例子。

由此可见，如果想让用户尽快上手，恰恰要建立在用户已有生活经验的基础之上。缩短了的界面学习过程，正是因为借用了此前若干年用户学习其它相关事物的过程。于是，了解目标用户群体已有的经验，并试图让交互方式与这些经验相一致，就成了设计自然人机交互的关键。

实际上，在人机交互中非常强调的“隐喻（metaphor）”概念，正可看成是这种思想的一种体现。隐喻指的是把用户界面中的概念比拟为一种人们熟悉的概念或现象，用于解释其交互方式，例如将图形界面元素比喻为大家熟悉的桌面、窗口等等。隐喻越贴切，越为用户熟悉，往往就意味着界面越自然。

当然，界面设计不可能也不应当完全局限于人们已有的经验。有时，界面所涉及的活动并没有直接对应的现实经验可以借鉴；有时，拘泥于已有经验会失去了界面设计的灵活性和创新空间。

如何确保用户界面在超越已有经验的同时，又不失其自然呢？这里要涉及到人机交互中另一个与用户经验息息相关的概念，即思维模型（mental model）。它是用户脑中对所进行的具体活动机制的一个抽象，源于经验，又高于经验。

还以多点触控中的两指操纵手势为例，根据物理经验，真实的物体无法被缩放，但基于平移和旋转的经验，用户抽象出的思维模型则是无论手指怎样移动，物体上固定的两个点始终对应于两个手指的位置。缩放操作正是这一思维模型的直接的推广，而这也是广大用户在使用这一操作时没有感到任何不自然的原因。

由此可见，理解用户已有的思维模型，并加以外推，不失为设计自然人机交互的有效方法，也可以覆盖大量的用户原本没有经验或预期的使用情境。这样设计出的界面可以说是“情理之中，意料之外”。

基于这些讨论，不妨试着给自然人机交互一个定义：自然人机交互是与目标用户群体在预期使用情境下已有的经验或思维模型相符的用户界面。虽然与许多常见理解相比，这个定义少了“新”和“炫”的成分，但它在某种意义上也许更加贴合自然的本义：往往是“无招胜有招”，一个理想的自然人机交互应当能让用户的注意力完全集中在所要从事的活动上，而忘记界面本身的存在，或者说，界面变得“透明”了。

实践尝试

下面介绍一些我们在自然人机交互研究方面的尝试。虽然这些例子未必在自然方面做到了完美，但希望能以它们来直观地映证前文的一些思路。

所握即所得的数字笔

数字笔在设计、艺术等行业内广泛采用，相比鼠标等其他输入设备，对于从事视觉创作人群的自然性不言而喻。但今天的数字笔已经完全自然了吗？如果我们看看现实中这些人群用于创作的物理工具，却远不止一支笔这么简单。

他们要用到的有钢笔、毛笔、素描铅笔、刻刀、尺子等等工具。虽然这些工具形状相仿，却每一件都是为了特殊的功能而专门设计的，让使用者用起来得心应手，最为自然。

虽然从软件上用同一支数字笔在画板上模拟各种工具的功能并不困难，但却在一定程度上缺失了每件物理工具使用的自然性。专用工具的自然，与通用工具的便利，有时看起来确实是一对矛盾。如何在这两者间取得平衡？答案依然要来自对现实经验的观察：当人们使用物理工具时，手握的方式都不尽相同，钢笔和毛笔的不同握法就是最好的例子。

而每种握法，也正是为了最舒适地完成相应的功能而优化的结果，这些握法本身就是自然性的体现。由此，如果我们能在同一支数字笔上，通过识别用户不同的握法来自动提供不同的功能，那么用户就不必再刻意地选择不同的工具（无论物理工具或是虚拟工具），而只需要关注想要完成的功能，相应转换到最为自然的握法，便可以直接开始使用这一种功能。

这样，用户不管从思维上还是操作上都跳过了工具选择这一步，可以说，工具变得“透明”了。基于这一想法，我们研制了一支“所握即所得的数字笔”，通过在笔上附加多点触摸和方向的传感器，可以识别出用户十余种不同的握法，并在数字画板上提供相应的功能：钢笔、毛笔、印章……甚至超出视觉创作的范畴，譬如模拟笛子等不同的乐器，从而使用户使用数字笔的体验更为自然和丰富。

ShapeTouch: 从多点触控到形状触控

多点触控中的两指操纵手势作为自然人机交互设计的范例，本身也面临着挑战。试想一下，如果不是在触摸屏或交互桌面上，而是在物理世界中操纵真实物体时也同样只用两个手指去移动和旋转，是否还那么自然？

人手是一件极为灵活的工具，我们在与物理世界交互时，会根据物体的特性（形状、重量等）和操作的目的（精细或是粗略，局部或是整体，等等）而采取不同的接触方式。我们的手能够完成的极其丰富的操作，远远超过多“点”触控的范畴。

那么，怎样才能让对虚拟物体的触控操作也像物理世界中那样丰富而自然？关键在于对于触摸输入的理解不能再简单地将其抽象为多“点”触摸，而是要保留接触面完整的形状与大小的信息并由它来决定交互的结果。因为在物理世界中，正是这复杂多变的接触面把人手的各种操作传递给了物体。

ShapeTouch系统正是为了展示这一概念而推出的。它通过对人手接触交互桌面的形状、面积、以及运动信息的分析，模拟出对所接触到的虚拟物体所应产生的作用力，譬如推力、压力、摩擦力等，从而产生出与物理世界相符的自然操作效果。

为此，用户不仅可以把若干年来与物理世界打交道积累下的丰富经验直接运用于与虚拟物体的交互，还可以像在物理世界中一样不假思索地将各种动作同时组合起来，完成更为复杂的操作。而这些操作方式并不仅局限于图片等有着具体物理对应的虚拟物体，也可以应用到按钮、滑动条等界面元素中，把用户来自具体物体的思维模型扩展到抽象的操作中去。

延伸阅读来源：https://blog.csdn.net/moonlightpeng/article/details/84100963

人机自然交互技术