Reconhecimento de gestos

O reconhecimento de gestos é um tópico em ciência da computação e tecnologia da linguagem com o objetivo de interpretar gestos humanos por meio de algoritmos matemáticos. Os gestos podem se originar de qualquer movimento ou estado corporal, mas geralmente se originam do rosto ou da mão. Os focos atuais no campo incluem o reconhecimento de emoções do reconhecimento de gestos de rosto e mão. Os usuários podem usar gestos simples para controlar ou interagir com dispositivos sem tocá-los fisicamente. Muitas abordagens foram feitas usando câmeras e algoritmos de visão computacional para interpretar a linguagem de sinais. No entanto, a identificação e o reconhecimento de postura, marcha, proxêmica e comportamentos humanos também são objeto de técnicas de reconhecimento de gestos. O reconhecimento de gestos pode ser visto como uma maneira de os computadores começarem a entender a linguagem corporal humana, construindo uma ponte mais rica entre máquinas e humanos do que interfaces de usuário primitivas de texto ou GUIs (interfaces gráficas de usuário), que ainda limitam a maioria das entradas ao teclado. e mouse.

O reconhecimento por gestos permite que os humanos se comuniquem com a máquina (HMI) e interajam naturalmente sem quaisquer dispositivos mecânicos. Usando o conceito de reconhecimento de gestos, é possível apontar um dedo na tela do computador para que o cursor se mova de acordo. Isso pode tornar redundantes os dispositivos de entrada convencionais, como mouse, teclados e até telas de toque.

Definição
Com relação à interação humano-computador, Kurtenbach e Hulteen definem um gesto da seguinte forma: “Um gesto é um movimento do corpo que contém informações. Acenar adeus é um gesto. Pressionar uma tecla em um teclado não é um gesto porque o movimento em um dedo não é observado nem significativo.Tudo o que importa é qual tecla foi pressionada.Em contraste, Harling e Edwards renunciam à exigência de movimento e compreendem por um gesto e posturas de mão estática.Pode-se distinguir entre sistemas nos quais os sensores necessários para a detecção está localizada diretamente no corpo do usuário e naquelas em que o usuário é observado por sensores externos.

Recurso de reconhecimento de gestos:

Mais preciso
Alta estabilidade
Economia de tempo para desbloquear um dispositivo

As principais áreas de aplicação do reconhecimento de gestos no cenário atual são:

Setor automotivo
Setor de eletrônicos de consumo
Setor de trânsito
Setor de jogos
Para desbloquear smartphones
Defesa
Automação residencial
Interpretação da linguagem gestual

A tecnologia de reconhecimento de gestos foi considerada a tecnologia de grande sucesso, pois economiza tempo para desbloquear qualquer dispositivo.

O reconhecimento de gestos pode ser realizado com técnicas de visão computacional e processamento de imagens.

A literatura inclui trabalhos em andamento no campo de visão computacional sobre a captura de gestos ou movimentos e poses humanos mais gerais por câmeras conectadas a um computador.

Reconhecimento de gestos e computação de caneta: A computação de caneta reduz o impacto de hardware de um sistema e também aumenta a variedade de objetos do mundo físico utilizáveis ​​para controle além dos objetos digitais tradicionais, como teclados e mouses. Tais implementações podem permitir uma nova gama de hardware que não requer monitores. Essa ideia pode levar à criação de uma exibição holográfica. O termo reconhecimento de gestos foi usado para se referir de forma mais restrita a símbolos de texto manuscrito sem entrada de texto, como tinta em uma mesa gráfica, gestos multitoque e reconhecimento de gesto do mouse. Esta é a interação do computador através do desenho de símbolos com um cursor de dispositivo apontador.

Tipos de gestos
Nas interfaces de computador, distinguem-se dois tipos de gestos: Consideramos os gestos on-line, que também podem ser considerados como manipulações diretas, como dimensionamento e rotação. Por outro lado, os gestos off-line geralmente são processados ​​após a conclusão da interação; Por exemplo, um círculo é desenhado para ativar um menu de contexto.

Gestos off-line: aqueles gestos que são processados ​​após a interação do usuário com o objeto. Um exemplo é o gesto para ativar um menu.
Gestos on-line: gestos de manipulação direta. Eles são usados ​​para dimensionar ou girar um objeto tangível.
Interface sem toque
Interface de usuário sem toque é um tipo emergente de tecnologia em relação ao controle de gestos. A interface do usuário sem toque (TUI) é o processo de comandar o computador através de movimentos e gestos do corpo sem tocar em um teclado, mouse ou tela. Por exemplo, o Kinect da Microsoft é uma interface de jogo sem toques; no entanto, produtos como o Wii não são considerados totalmente sem toques, porque estão ligados a controladores. A interface sem toque, além dos controles por gestos, está se tornando amplamente popular, pois oferece a capacidade de interagir com os dispositivos sem tocá-los fisicamente.

Reconhecimento de gestos baseado em dispositivos
A maioria dos sistemas baseados no corpo ou guiados pelo uso de sensores manuais em luvas de dados integrava sensores de aceleração ou posição. A desvantagem dos sistemas baseados em luva de dados é que o usuário deve usar a luva para usar o sistema.

Sistemas manuais, como o controlador Nintendo Wii e o BlueWand, fabricados pela BeeCon, também podem ser usados ​​para entrada de gestos. Ambos os sistemas podem ser manipulados pelo usuário e possuem sensores de aceleração para detectar o movimento de cada dispositivo.

Para dispositivos mais recentes, como smartphones e tablets, especialmente telas sensíveis ao toque são usadas, que podem ser usadas por “gestos de furto”. Em particular, as telas multi-touch oferecem a detecção de várias impressões digitais independentes simultaneamente, de modo que, por exemplo, com duas pontas dos dedos conectadas diagonalmente, as janelas podem ser maiores ou menores.

Reconhecimento de gestos baseado em câmera
Sistemas com sensores externos são principalmente sistemas baseados em câmeras. As câmeras são usadas para tirar fotos do usuário. Há dois sistemas com uma câmera e com várias câmeras, os sistemas mais novos geralmente trabalham com dados 3D que funcionam em câmeras de tempo de voo ou nas chamadas câmeras de luz estruturadas. As técnicas baseadas em câmeras contam com técnicas de análise de imagens 2D e 3D para detectar a postura do usuário. O reconhecimento de gestos baseado em câmera é usado, por exemplo, em jogos para o EyeToy conectável a consoles de jogos. Uma abordagem completamente nova é o controle por gestos via estereoscopia. A vantagem disso é que ela funciona sem luz infravermelha e, portanto, funciona ao ar livre.

Na análise técnica de imagens, existem basicamente várias abordagens a serem diferenciadas: ou um banco de dados é criado com gestos relevantes criados com base em um meridiano de mais de 1.000 análises de vídeo por gesto. Gestos de controle gravados são então comparados ao banco de dados e determinados de acordo. Por exemplo, essa solução é usada pela Microsoft com o Xbox em conjunto com a câmera Kinect 3D. A análise pode ser realizada em espaço bidimensional usando informações de imagem e vídeo. No espaço tridimensional fala-se de cálculo volumétrico, por exemplo, corpos são representados por NURBS ou polígonos. Um cálculo de dados 3D em tempo real está atualmente em desenvolvimento. A desvantagem dessa análise baseada em banco de dados é que ela exige muito poder de computação do banco de dados. Como alternativa, o software funciona com um identificador de esqueleto verdadeiro, i. H. A partir do corpo de dados da câmera, a mão e / ou os dedos são reconhecidos e atribuídos aos gestos predefinidos por um modelo de esqueleto simplificado. Esta solução promete uma variedade muito maior de gestos e precisão, mas é tecnicamente muito mais exigente.

O objetivo da pesquisa e desenvolvimento nos próximos anos é implementar o reconhecimento de gestos no contexto de software embarcado, que é independente de plataforma e câmera e requer pouca energia e, portanto, também pode ser usado, por exemplo, em telefones celulares, tablets ou navegação sistemas.

Em 2012, vários fornecedores comerciais anunciaram que queriam entrar no mercado com dispositivos de reconhecimento de gestos que deveriam ser significativamente melhores que os dispositivos atualmente disponíveis (especialmente o Kinect para o Xbox). Por exemplo, a Samsung apresentou a Smart TV na CES 2012 em Las Vegas. Outra empresa é a LeapMotion, onde o vídeo promocional do The Leap foi criticado na comunidade, já que algumas cenas óbvias foram gravadas. Na Alemanha, o controle por gestos é um tópico específico na indústria automotiva, onde são exigidos sistemas particularmente estáveis ​​e móveis, como aqueles fabricados pela gestigon, que também trabalham em uma solução incorporada. O reconhecimento de gestos em 3D também é popular nos campos de sinalização digital, tecnologia de mídia, arte de mídia e desempenho. Uma maneira fácil de usar o reconhecimento de gestos nessas áreas ez. Por exemplo, controlar outro software é o Kinetic Space. Outros fabricantes incluem Omek, Softkinetic e Myestro Interactive.

Tipos de tecnologia touchless
Há uma série de dispositivos que utilizam esse tipo de interface, como smartphones, laptops, jogos e televisão. Embora a tecnologia sem toque seja mais vista no software de jogos, o interesse agora está se espalhando para outros campos, incluindo os setores automotivo e de saúde. Em breve, tecnologia touchless e controle por gestos serão implementados em carros em níveis além do reconhecimento de voz. Veja BMW Series 7.

Futuro da tecnologia touchless
Já existe um vasto número de empresas em todo o mundo que estão produzindo tecnologia de reconhecimento de gestos, tais como:

Intel Corp.
White Paper: Explore a pesquisa da experiência do usuário da Intel, que mostra como a autenticação multifatorial sem toque (MFA) pode ajudar as organizações de assistência médica a reduzir os riscos de segurança, melhorando a eficiência, a conveniência e o atendimento ao paciente. Esta solução MFA sem contato combina recursos de reconhecimento facial e reconhecimento de dispositivos para autenticação de usuário de dois fatores.

Microsoft Corp nos EUA
O objetivo do projeto é, então, explorar o uso da interação sem toque dentro de configurações cirúrgicas, permitindo que as imagens sejam vistas, controladas e manipuladas sem contato através do uso da tecnologia de reconhecimento de gestos baseada em câmera. Em particular, o projeto busca entender os desafios desses ambientes para o design e a implantação de tais sistemas, bem como articular as maneiras pelas quais essas tecnologias podem alterar a prática cirúrgica. Embora nossas principais preocupações aqui sejam a manutenção das condições de assepsia, o uso dessas tecnologias baseadas em gestos sem contato oferece outros usos potenciais.

Laboratórios elípticos
A suíte de software Elliptic Labs oferece funções de gesto e proximidade reutilizando o fone de ouvido e o microfone existentes, usados ​​anteriormente apenas para áudio. Sinais de ultra-som enviados pelo ar de alto-falantes integrados em smartphones e tablets saltam contra uma mão / objeto / cabeça e são gravados por microfones, também integrados nesses dispositivos. Dessa forma, a tecnologia da Elliptic Labs reconhece seus gestos manuais e os utiliza para mover objetos em uma tela, da mesma forma que os morcegos usam a ecolocalização para navegar.

Embora essas empresas estejam na vanguarda da tecnologia sem contato para o futuro neste momento, existem muitas outras empresas e produtos que também estão tendendo atualmente e também podem agregar valor a esse novo campo. Aqui estão alguns dos muitos exemplos:

Tobii Rex: dispositivo de rastreamento ocular da Suécia

Airwriting: tecnologia que permite que mensagens e textos sejam escritos no ar

eyeSight: permite a navegação de uma tela sem tocar fisicamente no dispositivo

Leap Motion: dispositivo sensor de movimento

Braçadeira mioelétrica: permite a comunicação de dispositivos bluetooth

Dispositivos de entrada
A capacidade de rastrear os movimentos de uma pessoa e determinar quais gestos eles podem estar realizando pode ser obtida através de várias ferramentas. As interfaces de usuário cinética (KUIs) são um tipo emergente de interfaces de usuário que permitem aos usuários interagir com dispositivos de computação por meio do movimento de objetos e corpos. Exemplos de KUIs incluem interfaces de usuário tangíveis e jogos com reconhecimento de movimento, como o Wii e o Kinect da Microsoft, além de outros projetos interativos.

Embora haja uma grande quantidade de pesquisas feitas em reconhecimento de gestos baseados em imagem / vídeo, há alguma variação nas ferramentas e ambientes usados ​​entre as implementações.

Luvas com fio. Estes podem fornecer informações ao computador sobre a posição e rotação das mãos usando dispositivos de rastreamento magnéticos ou inerciais. Além disso, algumas luvas podem detectar a flexão dos dedos com um alto grau de precisão (5-10 graus), ou até mesmo fornecer feedback tátil ao usuário, que é uma simulação do sentido do tato. O primeiro dispositivo do tipo luva de rastreamento manual comercialmente disponível foi o DataGlove, um dispositivo do tipo luva que pode detectar a posição da mão, o movimento e a flexão dos dedos. Isso usa cabos de fibra óptica nas costas da mão. Os pulsos de luz são criados e quando os dedos são dobrados, a luz vaza através de pequenas rachaduras e a perda é registrada, dando uma aproximação da pose da mão.
Câmaras com reconhecimento de profundidade. Usando câmeras especializadas, como luz estruturada ou câmeras de tempo de vôo, é possível gerar um mapa de profundidade do que está sendo visto pela câmera em um curto intervalo e usar esses dados para aproximar uma representação em 3D do que está sendo visto. Estes podem ser eficazes para a detecção de gestos de mão, devido às suas capacidades de curto alcance.
Câmeras estéreo. Usando duas câmeras cujas relações são conhecidas, uma representação em 3D pode ser aproximada pela saída das câmeras. Para obter as relações das câmeras, pode-se usar uma referência de posicionamento, como emissores de faixa lexiana ou de infravermelho. Em combinação com a medição de movimento direto (6D-Vision), os gestos podem ser detectados diretamente.
Controladores baseados em gestos. Esses controladores atuam como uma extensão do corpo, de modo que, quando os gestos são realizados, alguns de seus movimentos podem ser convenientemente capturados pelo software. Um exemplo de captura de movimento baseada em gestos é através do rastreamento de mão esquelética, que está sendo desenvolvido para aplicações de realidade virtual e realidade aumentada. Um exemplo dessa tecnologia é mostrado pelas empresas de rastreamento uSens e Gestigon, que permitem que os usuários interajam com seus arredores sem controladores.

Outro exemplo disso são os movimentos de gestos do mouse, onde o movimento do mouse está correlacionado a um símbolo sendo desenhado pela mão de uma pessoa, como o Wii Remote ou a braçadeira Myo ou a pulseira mForce Wizard, que pode estudar mudanças na aceleração ao longo do tempo representar gestos. Dispositivos como o Magic Wand da LG Electronics, o Loop e o Scoop usam a tecnologia Freespace da Hillcrest Labs, que usa acelerômetros, giroscópios e outros sensores MEMS para traduzir gestos em movimento do cursor. O software também compensa tremores humanos e movimentos inadvertidos. AudioCubes são outro exemplo. Os sensores desses cubos inteligentes emissores de luz podem ser usados ​​para detectar mãos e dedos, bem como outros objetos próximos, e podem ser usados ​​para processar dados. A maioria dos aplicativos está na síntese de música e som, mas pode ser aplicada a outros campos.

Única câmera. Uma câmera 2D padrão pode ser usada para reconhecimento de gestos, onde os recursos / ambiente não seriam convenientes para outras formas de reconhecimento baseado em imagem. Anteriormente, pensava-se que a câmera única pode não ser tão eficaz quanto as câmeras estéreo ou de profundidade, mas algumas empresas estão desafiando essa teoria. Tecnologia de reconhecimento de gestos baseada em software usando uma câmera 2D padrão que pode detectar gestos de mão robustos.
Radar. Veja o Projeto Soli revelado no Google I / O 2015, a partir das 13:30, Google I / O 2015 – Um pouco foda. Lindo. Tecnico e humano. Trabalho e amor. UMA TORNEIRA. – YouTube, e um pequeno vídeo de introdução, Bem-vindo ao Projeto Soli – YouTube

Algoritmos
Dependendo do tipo de dados de entrada, a abordagem para interpretar um gesto pode ser feita de diferentes maneiras. No entanto, a maioria das técnicas depende de ponteiros chave representados em um sistema de coordenadas 3D. Com base no movimento relativo destes, o gesto pode ser detectado com uma alta precisão, dependendo da qualidade da entrada e da abordagem do algoritmo.
Para interpretar os movimentos do corpo, é preciso classificá-los de acordo com as propriedades comuns e a mensagem que os movimentos podem expressar. Por exemplo, na linguagem de sinais, cada gesto representa uma palavra ou frase. A taxonomia que parece muito apropriada para Interação Humano-Computador foi proposta pela Quek em “Rumo a uma interface de gesto manual baseada em visão”. Ele apresenta vários sistemas de gestos interativos para capturar todo o espaço dos gestos:

Manipulativo
Semafórica
Conversacional

Algumas literaturas diferenciam duas abordagens diferentes no reconhecimento de gestos: um modelo 3D baseado e um baseado em aparência. O método mais avançado faz uso da informação 3D dos principais elementos das partes do corpo, a fim de obter vários parâmetros importantes, como posição da palma da mão ou ângulos articulares. Por outro lado, os sistemas baseados em aparência usam imagens ou vídeos para interpretação direta.

Algoritmos baseados em modelos 3D
A abordagem do modelo 3D pode usar modelos volumétricos ou esqueléticos, ou até mesmo uma combinação dos dois. Abordagens volumétricas têm sido muito utilizadas na indústria de animação por computador e para fins de visão computacional. Os modelos são geralmente criados a partir de superfícies 3D complicadas, como NURBS ou malhas poligonais.

A desvantagem desse método é que é muito intensivo em computação, e os sistemas para análise em tempo real ainda precisam ser desenvolvidos. No momento, uma abordagem mais interessante seria mapear objetos primitivos simples para as partes mais importantes da pessoa (por exemplo, cilindros para os braços e pescoço, esfera para a cabeça) e analisar a maneira como eles interagem entre si. Além disso, algumas estruturas abstratas como super-quadriculares e cilindros generalizados podem ser ainda mais adequadas para aproximar as partes do corpo. O interessante nessa abordagem é que os parâmetros para esses objetos são bem simples. Para melhor modelar a relação entre estes, fazemos uso de restrições e hierarquias entre nossos objetos.

Algoritmos baseados em esqueletos
Em vez de usar o processamento intensivo dos modelos 3D e lidar com vários parâmetros, pode-se usar apenas uma versão simplificada dos parâmetros do ângulo da junta junto com os comprimentos dos segmentos. Isto é conhecido como uma representação esquelética do corpo, onde um esqueleto virtual da pessoa é calculado e partes do corpo são mapeadas para certos segmentos. A análise aqui é feita usando a posição e orientação desses segmentos e a relação entre cada um deles (por exemplo, o ângulo entre as juntas e a posição relativa ou orientação).

Vantagens do uso de modelos esqueléticos:

Algoritmos são mais rápidos porque somente parâmetros chave são analisados.
A correspondência de padrões em um banco de dados de modelos é possível
A utilização de pontos-chave permite que o programa de detecção se concentre nas partes significativas do corpo

Modelos baseados em aparência
Esses modelos não usam mais uma representação espacial do corpo, porque derivam os parâmetros diretamente das imagens ou vídeos usando um banco de dados de modelos. Alguns são baseados nos modelos 2D deformáveis ​​das partes humanas do corpo, particularmente nas mãos. Modelos deformáveis ​​são conjuntos de pontos no contorno de um objeto, usados ​​como nós de interpolação para a aproximação do contorno do objeto. Uma das funções de interpolação mais simples é a linear, que executa uma forma média a partir de conjuntos de pontos, parâmetros de variabilidade de pontos e deformadores externos. Esses modelos baseados em modelos são usados ​​principalmente para rastreamento de mãos, mas também podem ser usados ​​para classificação simples de gestos.

Uma segunda abordagem na detecção de gestos usando modelos baseados em aparência usa sequências de imagens como modelos de gestos. Os parâmetros desse método são as próprias imagens ou determinados recursos derivados deles. Na maioria das vezes, apenas uma visão (monoscópica) ou duas (estereoscópica) são usadas.

Desafios
Existem muitos desafios associados à precisão e utilidade do software de reconhecimento de gestos. Para o reconhecimento de gestos baseado em imagem, há limitações no equipamento usado e no ruído da imagem. Imagens ou vídeos podem não estar sob iluminação consistente ou no mesmo local. Itens em segundo plano ou recursos distintos dos usuários podem tornar o reconhecimento mais difícil.

A variedade de implementações para reconhecimento de gestos baseado em imagens também pode causar problemas para a viabilidade da tecnologia para uso geral. Por exemplo, um algoritmo calibrado para uma câmera pode não funcionar para uma câmera diferente. A quantidade de ruído de fundo também causa dificuldades de rastreamento e reconhecimento, especialmente quando ocorrem oclusões (parcial e total). Além disso, a distância da câmera e a resolução e a qualidade da câmera também causam variações na precisão do reconhecimento.

Para capturar gestos humanos por meio de sensores visuais, métodos robustos de visão computacional também são necessários, por exemplo, para rastreamento de mãos e reconhecimento da postura da mão ou para capturar movimentos da cabeça, expressões faciais ou direção do olhar.

“Braço de gorila”
O “braço do gorila” era um efeito colateral da tela sensível ao toque orientada verticalmente ou do uso de caneta de luz. Em períodos de uso prolongado, os braços dos usuários começaram a sentir fadiga e / ou desconforto. Este efeito contribuiu para o declínio da entrada do touch-screen, apesar da popularidade inicial nos anos 80.

Para medir a fadiga do braço e o efeito colateral do braço do gorila, os pesquisadores desenvolveram uma técnica chamada Resistência Consumida.