Categories: 应用信息技术

手势识别

手势识别(Gesture recognition)是计算机科学和语言技术中的一个主题,其目标是通过数学算法解释人类手势。 手势可以源自任何身体运动或状态,但通常源自面部或手部。 该领域的当前焦点包括来自面部的情绪识别和手势识别。 用户可以使用简单的手势来控制设备或与设备交互,而无需实际接触设备。 已经使用相机和计算机视觉算法来解释手语的许多方法。 然而,姿势,步态,代理和人类行为的识别和识别也是姿势识别技术的主题。 手势识别可以被视为计算机开始理解人体语言的一种方式,从而在机器和人之间建立一个比原始文本用户界面甚至GUI(图形用户界面)更丰富的桥梁,这仍然限制了键盘的大部分输入和鼠标。

手势识别使人类能够与机器(HMI)进行通信,并且无需任何机械设备即可自然地进行交互。 使用手势识别的概念,可以将手指指向计算机屏幕,以便光标相应地移动。 这可能使诸如鼠标,键盘甚至触摸屏之类的传统输入设备变得多余。

定义
关于人机交互,Kurtenbach和Hulteen定义了一个手势如下:“手势是包含信息的身体动作。挥手告别是一种手势。按键盘上的键不是手势,因为动作是没有观察到手指也没有显着意义。重要的是按下了哪个按键。相比之下,Harling和Edwards放弃了移动的要求并通过手势和静态手势来理解。可以区分传感器所需的传感器系统。检测直接位于用户的身体上,以及通过外部传感器观察用户的那些。

手势识别功能:

更准确的
稳定性高
解锁设备可节省时间

当前场景中手势识别的主要应用领域是:

汽车部门
消费电子行业
过境部门
游戏部门
解锁智能手机
防御
家庭自动化
手语翻译

手势识别技术被认为是非常成功的技术,因为它节省了解锁任何设备的时间。

可以使用计算机视觉和图像处理技术进行手势识别。

该文献包括计算机视觉领域中正在进行的关于通过连接到计算机的相机捕获手势或更一般的人体姿势和运动的工作。

手势识别和笔计算:笔式计算减少了系统的硬件影响,并且还增加了可用于控制的物理世界对象的范围,超越了传统的数字对象,如键盘和鼠标。 这样的实现可以实现不需要监视器的新范围的硬件。 这个想法可能会导致全息显示的产生。 术语手势识别已被用于更狭义地指代非文本输入手写符号,例如在图形输入板上着墨,多点触摸手势和鼠标手势识别。 这是通过使用指点设备光标绘制符号的计算机交互。

手势类型
在计算机界面中,区分了两种类型的手势:我们考虑在线手势,这也可以被视为直接操作,如缩放和旋转。 相反,离线手势通常在交互完成后处理; 例如,绘制一个圆圈以激活上下文菜单。

脱机手势:用户与对象交互后处理的手势。 一个例子是激活菜单的手势。
在线手势:直接操纵手势。 它们用于缩放或旋转有形物体。
无接触界面
无接触用户界面是与手势控制相关的新兴技术。 无接触用户界面(TUI)是通过身体动作和手势命令计算机而不触摸键盘,鼠标或屏幕的过程。 例如,微软的Kinect是一款非接触式游戏界面; 然而,诸如Wii之类的产品并不被认为是完全无接触的,因为它们与控制器相连。 除了手势控制之外,非接触式界面正变得广泛流行,因为它们提供了与设备交互而无需物理触摸它们的能力。

基于设备的手势识别
大多数基于身体佩戴或由手传感器引导的系统用于集成加速度或位置传感器的数据手套中。 基于数据手套的系统的缺点是用户必须戴上手套才能使用该系统。

由BeeCon制造的手持式系统,如Nintendo Wii控制器和BlueWand,也可用于手势输入。 两个系统都可由用户处理,并具有加速度传感器以检测每个设备的移动。

对于诸如智能手机和平板电脑的较新设备,尤其使用触摸屏,其可以通过“轻扫手势”来使用。 特别地,多点触摸屏同时提供几个独立指纹的检测,因此,例如,通过两个对角连接的指尖,可以使窗口更大或更小。

基于摄像头的手势识别
具有外部传感器的系统主要是基于相机的系统。 相机用于拍摄用户的照片。 有两个系统都带有摄像头和多个摄像头,较新的系统通常使用3D数据,可以在飞行时间相机或所谓的结构光照相机上工作。 基于相机的技术依靠2D和3D图像分析技术来检测用户的姿势。 基于相机的手势识别例如用于可连接到游戏控制台的EyeToy的游戏中。 一种全新的方法是通过立体视觉进行手势控制,其优点在于它无需红外线即可工作,因此可在户外工作。

在技​​术图像分析中,基本上有几种方法可以区分:要么创建数据库,要么根据每个手势超过1,000个视频分析的子午线创建相关手势。 然后将记录的控制手势与数据库进行比较并相应地确定。 例如,Microsoft使用此解决方案将Xbox与Kinect 3D相机结合使用。 可以使用图像和视频信息在二维空间中执行分析。 在三维空间中,人们谈到体积计算,例如,物体由NURBS或多边形表示。 目前正在开发实时3D数据的计算。 这种基于数据库的分析的缺点是它需要来自数据库的大量计算能力。 或者,该软件使用真正的骨架标识符,即。 H.通过简化的骨架模型,从相机数据体识别手和/或手指并将其分配给预定义的手势。 该解决方案承诺提供更多种类的手势和精确度,但在技术上要求更高。

未来几年的研究和开发目标是在嵌入式软件环境中实现手势识别,嵌入式软件独立于平台和摄像头,需要的能量很少,因此也可用于移动电话,平板电脑或导航系统。

2012年,许多商业厂商宣布他们希望通过手势识别设备进入市场,该设备应该比现有设备(特别是Xbox的Kinect)明显更好。 例如,三星在拉斯维加斯的CES 2012上展示了智能电视。 另一家公司是LeapMotion,The Leap的宣传视频在社区受到批评,因为一些明显的场景被记录下来。 在德国,手势控制是汽车行业中的一个特殊主题,其中需要特别稳定和移动的系统,例如由gestigon制造的那些,其也在嵌入式解决方案上工作。 3D手势识别在数字标牌,媒体技术,媒体艺术和表演领域也很受欢迎。 在这些区域和z中使用手势识别的简单方法。 例如,控制其他软件的是Kinetic Space。 其他制造商包括Omek,Softkinetic和Myestro Interactive。

非接触式技术的类型
有许多设备利用这种类型的接口,例如智能手机,笔记本电脑,游戏和电视。 虽然非接触式技术主要出现在游戏软件中,但现在人们对其他领域,包括汽车和医疗保健行业感兴趣。 即将到来,无触摸技术和手势控制将在语音识别之外的汽车中实施。 参见BMW 7系列。

非接触式技术的未来
全世界已经有很多公司正在制作手势识别技术,例如:

Intel Corp.
白皮书:探索英特尔的用户体验研究,该研究展示了无接触式多因素身份验证(MFA)如何帮助医疗机构降低安全风险,同时提高临床医生的效率,便利性和患者护理。 这种非接触式MFA解决方案结合了面部识别和设备识别功能,可实现双因素用户身份验证。

微软公司在美国
该项目的目的是探索在外科手术设置中使用非接触式交互,通过使用基于摄像头的手势识别技术,无需接触即可查看,控制和操纵图像。 特别是,该项目旨在了解这些环境对这些系统的设计和部署所面临的挑战,并阐明这些技术可能改变手术实践的方式。 虽然我们的主要关注点是保持无菌状态,但使用这些无触摸手势技术可提供其他潜在用途。

椭圆实验室
Elliptic Labs软件套件通过重复使用以前仅用于音频的现有耳机和麦克风,提供手势和接近功能。 从集成在智能手机和平板电脑中的扬声器通过空气发送的超声信号反弹到手/物体/头部,并由麦克风记录,麦克风也集成在这些设备中。 通过这种方式,Elliptic Labs的技术可识别您的手势,并使用它们在屏幕上移动物体,类似于蝙蝠使用回声定位进行导航的方式。

虽然这些公司在当时处于未来非接触式技术的最前沿,但目前还有许多其他公司和产品趋势,也可能为这一新领域增加价值。 以下是一些例子:

Related Post

Tobii Rex:来自瑞典的眼动追踪设备

Airwriting:允许在空中书写消息和文本的技术

eyeSight:允许在不亲自触摸设备的情况下导航屏幕

Leap Motion:运动传感器设备

Myoelectric Armband:允许蓝牙设备通信

输入设备
能够通过各种工具实现跟踪人的动作并确定他们可能正在执行的手势的能力。 动态用户界面(KUI)是一种新兴的用户界面类型,允许用户通过对象和物体的运动与计算设备进行交互。 KUI的示例包括有形用户界面和动作感知游戏,例如Wii和Microsoft的Kinect,以及其他交互式项目。

尽管在基于图像/视频的手势识别方面进行了大量研究,但在实现之间使用的工具和环境中存在一些变化。

有线手套。 这些可以使用磁性或惯性跟踪装置向计算机提供关于手的位置和旋转的输入。 此外,一些手套可以高精度(5-10度)检测手指弯曲,或者甚至向用户提供触觉反馈,这是触觉的模拟。 第一款商用手持式手套式设备是DataGlove,这是一种手套式设备,可以检测手的位置,移动和手指弯曲。 这使用沿手背向下延伸的光纤电缆。 产生光脉冲并且当手指弯曲时,光通过小裂缝泄漏并且记录损失,给出手姿势的近似值。
深度感知相机。 使用结构光或飞行时间相机等专用摄像机,可以生成短距离通过摄像机看到的内容的深度图,并使用此数据近似显示所看到内容的3d表示。 由于它们的短距离能力,这些可以有效地检测手势。
立体相机。 使用彼此关系已知的两个相机,可以通过相机的输出来近似3d表示。 为了获得相机的关系,可以使用定位参考,例如lexian-stripe或红外发射器。 结合直接运动测量(6D-Vision)可以直接检测手势。
基于手势的控制器。 这些控制器充当身体的延伸部分,以便在执行手势时,可以通过软件方便地捕获他们的一些动作。 新兴的基于姿势的动作捕捉的一个示例是通过骨骼手部跟踪,其正在为虚拟现实和增强现实应用而开发。 跟踪公司uSens和Gestigon展示了这项技术的一个例子,它允许用户在没有控制器的情况下与周围环境进行交互。

另一个例子是鼠标手势跟踪,其中鼠标的运动与人手绘制的符号相关,Wii Remote或Myo臂带或mForce Wizard腕带可以研究加速度随时间的变化。表示手势。 诸如LG Electronics Magic Wand,Loop和Scoop等设备使用Hillcrest Labs的Freespace技术,该技术使用MEMS加速度计,陀螺仪和其他传感器将手势转换为光标移动。 该软件还可以补偿人体震颤和无意中的移动。 AudioCubes是另一个例子。 这些智能发光立方体的传感器可用于感测手和手指以及附近的其他物体,并且可用于处理数据。 大多数应用程序都在音乐和声音合成中,但可以应用于其他领域。

单摄像头。 标准2D相机可以用于手势识别,其中资源/环境对于其他形式的基于图像的识别不方便。 早些时候人们认为单个相机可能不如立体声或深度感知相机那么有效,但一些公司正在挑战这一理论。 基于软件的手势识别技术,使用可以检测稳健手势的标准2D相机。
雷达。 请参阅2015年Google I / O上发布的Project Soli。从13:30开始,Google I / O 2015 – 有点糟糕。 美丽。 科技与人类。 工作和爱。 ATAP。 – YouTube和简短介绍视频,欢迎使用Project Soli – YouTube

算法
根据输入数据的类型,可以以不同方式完成解释手势的方法。 然而,大多数技术依赖于3D坐标系中表示的关键指针。 基于这些的相对运动,可以高精度地检测手势,这取决于输入的质量和算法的方法。
为了解释身体的运动,必须根据共同属性和运动可能表达的信息对它们进行分类。 例如,在手语中,每个手势代表一个单词或短语。 Quek在“走向基于视觉的手势界面”中提出了似乎非常适合人机交互的分类法。 他提出了几个交互式手势系统,以捕捉手势的整个空间:

手法
信号灯
对话的

一些文献区分了手势识别中的两种不同方法:基于3D模型和基于外观。 最重要的方法是利用身体部位的关键元素的3D信息,以获得几个重要的参数,如手掌位置或关节角度。 另一方面,基于外观的系统使用图像或视频进行直接解释。

基于3D模型的算法
3D模型方法可以使用体积或骨架模型,甚至两者的组合。 容量方法已经大量用于计算机动画行业和计算机视觉目的。 模型通常是从​​复杂的3D表面创建的,如NURBS或多边形网格。

该方法的缺点是计算量很大,并且仍然需要开发用于实时分析的系统。 目前,一种更有趣的方法是将简单的原始物体映射到人体最重要的身体部位(例如手臂和颈部的圆柱体,头部的球体),并分析它们相互作用的方式。 此外,一些抽象结构,如超级二次曲面和广义圆柱体可能更适合近似身体部位。 这种方法的令人兴奋的事情是这些对象的参数非常简单。 为了更好地建模这些关系,我们在对象之间使用约束和层次结构。

基于骨架的算法
可以使用简化版本的关节角度参数以及段长度,而不是使用3D模型的密集处理和处理大量参数。 这被称为身体的骨架表示,其中计算人的虚拟骨架并且身体的部分被映射到某些片段。 这里的分析是使用这些段的位置和方向以及它们中的每一个之间的关系(例如,关节之间的角度和相对位置或方向)来完成的。

使用骨架模型的优点:

算法更快,因为只分析关键参数。
可以对模板数据库进行模式匹配
使用关键点可使检测程序专注于身体的重要部位

基于外观的模型
这些模型不再使用身体的空间表示,因为它们使用模板数据库直接从图像或视频中导出参数。 一些是基于身体人体部位的可变形2D模板,特别是手。 可变形模板是对象轮廓上的点集,用作对象轮廓近似的插值节点。 最简单的插值函数之一是线性,它从点集,点变化参数和外​​部变形器执行平均形状。 这些基于模板的模型主要用于手部跟踪,但也可用于简单的手势分类。

使用基于外观的模型的手势检测中的第二种方法使用图像序列作为手势模板。 此方法的参数可以是图像本身,也可以是从这些图像中派生的某些特征。 大多数时候,仅使用一个(单视场)或两个(立体)视图。

挑战
手势识别软件的准确性和实用性存在许多挑战。 对于基于图像的手势识别,使用的设备和图像噪声存在限制。 图像或视频可能不在一致的光照下,也可能在同一位置。 背景中的项目或用户的不同特征可能使识别更加困难。

基于图像的手势识别的各种实现也可能导致技术对于一般使用的可行性的问题。 例如,针对一个相机校准的算法可能不适用于不同的相机。 背景噪声的量也会导致跟踪和识别困难,尤其是在发生遮挡(部分和全部)时。 此外,与相机的距离以及相机的分辨率和质量也会导致识别准确度的变化。

为了通过视觉传感器捕获人类手势,还需要稳健的计算机视觉方法,例如用于手部跟踪和手部姿势识别或用于捕获头部,面部表情或注视方向的运动。

“大猩猩手臂”
“大猩猩手臂”是垂直定向触摸屏或光笔使用的副作用。 在长期使用期间,使用者的手臂开始感到疲劳和/或不适。 尽管在20世纪80年代开始流行,但这种效应导致了触摸屏输入的下降。

为了测量手臂疲劳和大猩猩手臂副作用,研究人员开发了一种名为“消耗耐力”的技术。

Share