O reconhecimento da emoção é o processo de identificação da emoção humana, mais tipicamente a partir de expressões faciais, bem como de expressões verbais. Isso é algo que os humanos fazem automaticamente, mas metodologias computacionais também foram desenvolvidas.
Emoção de definição científica
Uma emoção tem que ser diferenciada do conceito de sentimento, humor e personalidade. Um sentimento, por exemplo, quando você sente uma pessoa mascarada atrás de uma parede. Então você sente medo. Um sentimento só se torna uma emoção quando esta mudança física é avaliada cognitivamente.
Se alguém, por exemplo, seu batimento cardíaco é rastreado até o homem mascarado, alguém poderia falar de medo. No entanto, se ele retornar ao seu amado secretamente, alguém falaria de alegria. As emoções geralmente duram apenas alguns segundos e têm um set e off-set claramente definidos. Os humores, por outro lado, podem durar horas, dias ou mesmo semanas. Se alguém diz que está de mau humor hoje, está de mau humor. No entanto, isso não necessariamente tem nada a ver com emoções.
Muitas vezes, um determinado humor pode aumentar ou diminuir a probabilidade de ocorrência de uma determinada emoção, mas essas duas coisas devem ser analiticamente separadas. Finalmente, a personalidade de uma pessoa precisa ser diferenciada do humor. Uma pessoa colérica, por exemplo, fica permanentemente excessivamente nervosa. Desta forma, podemos imaginar os termos sentimento, emoção, humor e personalidade organizados em uma linha do tempo – com sentimento de um lado, a curto prazo, e personalidade do outro lado, a longo prazo.
Humano
Os seres humanos mostram consistência universal no reconhecimento de emoções, mas também mostram uma grande variabilidade entre os indivíduos em suas habilidades. Este tem sido um dos principais tópicos de estudo em psicologia.
Efeito Cross Race
O reconhecimento emocional entre duas pessoas está sujeito a fortes flutuações. Na psicologia, um fenômeno foi descoberto, o que é chamado de efeito cruzado. Esse fenômeno implica que a taxa de reconhecimento de emoções é menor quando a emoção a ser reconhecida pertence a uma face que não pertence à mesma cultura ou etnia que a do observador. No entanto, esse efeito pode ser superado por uma forma de treinamento.
Reconhecimento visual de mímica
Esta parte é comumente referida como expressões faciais. Como interface homem-máquina, é utilizada uma câmara de vídeo digital ou dispositivo de entrada óptica equivalente. Aqui, os métodos de reconhecimento facial são usados para analisar as características da superfície facial. Através da classificação automática é possível associar as expressões faciais dos quadros seriais a um cluster que poderia estar associado a uma emoção. A pesquisa mostrou, no entanto, que apenas 30% das emoções mímicas correspondem às emoções realmente sentidas. Portanto, não se deve equacionar expressões faciais visuais com reconhecimento de emoções visuais. O pano de fundo biológico do reconhecimento de emoções visuais é a simulação de um nervo óptico humano em um robô.
Indução da emoção
Para contextos experimentais nos campos da psicologia da emoção, etologia comportamental, neuropsicologia e muitas outras ciências, muitas vezes é importante “gerar” emoções específicas sob condições de laboratório. A indução emocional é uma das áreas mais difíceis da pesquisa emocional. Diversas meta-análises sobre este tópico extraíram vários métodos que podem induzir emoções de maneira mais eficaz.
Primeiro e mais importante é a captura da emoção na realidade (pesquisa de campo de palavras-chave). Devido à baixa validade interna, isso é freqüentemente evitado. O segundo método, que combina alto interno com alta validade externa, é o método de recordações emocionais em que se tenta evocar memórias da memória emocional. Desencorajada para experiências fora do EEG, a pesquisa da emoção é feita por métodos de indução, como o IAPS ou o método de indução, que supostamente usam seqüências de filmes ou peças de música que induzem a emoção. Todos esses métodos permanecem sem comprovação de eficácia específica. A robótica costuma usar procedimentos experimentais idealizados, por exemplo:
Um método de indução deve induzir uma emoção em humanos.
Homem expressa sua emoção com uma superfície de face alterada.
Uma webcam no computador captura a nova expressão facial.
O computador pode classificar automaticamente a emoção classificando-a como a emoção que foi induzida anteriormente.
Depois de completar a fase de aprendizado, a IA deve ser capaz de reconhecer independentemente as emoções sem ter sido previamente ensinada por um ser humano. No entanto, como nem o método de indução é frequentemente testado quanto à eficácia, nem as emoções induzidas são avaliadas durante o próprio experimento, esses procedimentos experimentais idealizados em robótica geralmente permanecem errados e incompletos.
Automático
Esse processo utiliza técnicas de várias áreas, como processamento de sinal, aprendizado de máquina e visão computacional. Diferentes metodologias e técnicas podem ser empregadas para interpretar emoções tais como redes bayesianas, modelos Gaussian Mixture e Hidden Markov Models.
Abordagens
A tarefa do reconhecimento de emoções muitas vezes envolve a análise de expressões humanas em formas multimodais, como textos, áudio ou vídeo. Diferentes tipos de emoção são detectados por meio da integração de informações de expressões faciais, movimento e gestos corporais e fala. As abordagens existentes no reconhecimento de emoções para classificar certos tipos de emoção podem ser geralmente classificadas em três categorias principais: técnicas baseadas no conhecimento, métodos estatísticos e abordagens híbridas.
Técnicas Baseadas no Conhecimento
Técnicas baseadas em conhecimento (às vezes chamadas de técnicas baseadas em léxico) utilizam o conhecimento de domínio e as características semânticas e sintáticas da linguagem para detectar certos tipos de emoção. Nessa abordagem, é comum usar recursos baseados no conhecimento durante o processo de classificação de emoções, como WordNet, SenticNet, ConceptNet e EmotiNet, para citar alguns. Uma das vantagens dessa abordagem é a acessibilidade e a economia trazidas pela grande disponibilidade desses recursos baseados no conhecimento. Uma limitação dessa técnica, por outro lado, é sua incapacidade de lidar com nuances conceituais e regras lingüísticas complexas.
As técnicas baseadas em conhecimento podem ser classificadas principalmente em duas categorias: abordagens baseadas em dicionário e baseadas em corpus. Abordagens baseadas em dicionário encontram palavras-chave de opinião ou emoção em um dicionário e procuram por seus sinônimos e antônimos para expandir a lista inicial de opiniões ou emoções. As abordagens baseadas em corpus, por outro lado, começam com uma lista inicial de opinião ou palavras de emoção e expandem o banco de dados encontrando outras palavras com características específicas do contexto em um corpus grande. Embora as abordagens baseadas em corpus levem em consideração o contexto, seu desempenho ainda varia em diferentes domínios, pois uma palavra em um domínio pode ter uma orientação diferente em outro domínio.
Métodos estatísticos
Os métodos estatísticos geralmente envolvem o uso de diferentes algoritmos de aprendizado de máquina supervisionados, nos quais um grande conjunto de dados anotados é alimentado nos algoritmos para que o sistema aprenda e preveja os tipos de emoções apropriados. Essa abordagem normalmente envolve dois conjuntos de dados: o conjunto de treinamento e o conjunto de testes, onde o primeiro é usado para aprender os atributos dos dados, enquanto o último é usado para validar o desempenho do algoritmo de aprendizado de máquina. Os algoritmos de aprendizado de máquina geralmente fornecem uma precisão de classificação mais razoável em comparação com outras abordagens, mas um dos desafios para alcançar bons resultados no processo de classificação é a necessidade de ter um conjunto de treinamento suficientemente grande.
Alguns dos algoritmos de aprendizado de máquina mais comumente usados incluem Support Vector Machines (SVM), Naive Bayes e Maximum Entropy. O aprendizado profundo, que está sob a família não supervisionada de aprendizado de máquina, também é amplamente empregado no reconhecimento de emoções. Algoritmos de aprendizado profundo bem conhecidos incluem diferentes arquiteturas de Rede Neural Artificial (RNA), como Rede Neural de Convolução (CNN), Memória de Longo Prazo (LSTM) e Máquina de Aprendizado Extrema (ELM). A popularidade de abordagens de aprendizagem profunda no domínio do reconhecimento de emoções pode ser atribuída principalmente ao seu sucesso em aplicações relacionadas, como visão computacional, reconhecimento de fala e Processamento de Linguagem Natural (PNL).
Abordagens Híbridas
Abordagens híbridas no reconhecimento de emoções são essencialmente uma combinação de técnicas baseadas em conhecimento e métodos estatísticos, que exploram características complementares de ambas as técnicas. Alguns dos trabalhos que aplicaram um conjunto de elementos lingüísticos orientados ao conhecimento e métodos estatísticos incluem a computação sêmica e o iFeel, ambos adotaram o SenticNet, um recurso baseado em conhecimento de nível conceitual. O papel de tais recursos baseados no conhecimento na implementação de abordagens híbridas é altamente importante no processo de classificação de emoções. Como as técnicas híbridas ganham com os benefícios oferecidos por abordagens baseadas em conhecimento e estatísticas, elas tendem a ter melhor desempenho de classificação do que empregar métodos estatísticos ou baseados em conhecimento de forma independente. Uma desvantagem de usar técnicas híbridas, no entanto, é a complexidade computacional durante o processo de classificação.
Conjuntos de dados
Os dados são parte integrante das abordagens existentes no reconhecimento de emoções e, na maioria dos casos, é um desafio obter dados anotados que são necessários para treinar algoritmos de aprendizado de máquina. Embora a maioria dos dados publicamente disponíveis não sejam anotados, existem conjuntos de dados anotados disponíveis para realizar pesquisas de reconhecimento de emoções. Para a tarefa de classificar diferentes tipos de emoção de fontes multimodais na forma de textos, áudio, vídeos ou sinais fisiológicos, os seguintes conjuntos de dados estão disponíveis:
HUMAINE: fornece clipes naturais com palavras de emoção e rótulos de contexto em várias modalidades
Banco de dados de Belfast: fornece clipes com uma ampla gama de emoções de programas de TV e gravações de entrevistas
SEMAINE: fornece gravações audiovisuais entre uma pessoa e um agente virtual e contém anotações de emoção, como raiva, alegria, medo, desgosto, tristeza, desprezo e diversão.
IEMOCAP: fornece gravações de sessões diádicas entre atores e contém anotações de emoção como felicidade, raiva, tristeza, frustração e estado neutro
eNTERFACE: fornece gravações audiovisuais de assuntos de sete nacionalidades e contém anotações de emoção como felicidade, raiva, tristeza, surpresa, nojo e medo
DEAP: fornece eletroencefalografia (EEG), eletrocardiograma (ECG) e gravações em vídeo de rosto, bem como anotações de emoção em termos de valência, excitação e dominância de pessoas assistindo a clipes de filme
DREAMER: fornece gravações de eletroencefalografia (EEG) e eletrocardiograma (ECG), bem como anotações de emoção em termos de valência, excitação e dominância de pessoas assistindo a clipes de filme
Aplicações
Os programadores de computador costumam usar o Sistema de Codificação de Ações Faciais de Paul Ekman como um guia.
O reconhecimento de emoções é usado por vários motivos. A Affectiva usa-a para ajudar anunciantes e criadores de conteúdo a vender seus produtos com mais eficiência. Affectiva também faz um sensor Q que mede as emoções das crianças autistas. A Emotient foi uma startup que utilizou inteligência artificial para prever “atitudes e ações baseadas em expressões faciais”. A Apple indicou sua intenção de comprar o Emotient em janeiro de 2016. O nViso fornece reconhecimento de emoções em tempo real para aplicativos da Web e móveis por meio de uma API em tempo real. A Visage Technologies AB oferece estimativa de emoção como parte de seu SDK de Visage para fins de marketing e pesquisa científica e para fins semelhantes. A Eyeris é uma empresa de reconhecimento de emoções que trabalha com fabricantes de sistemas embarcados, incluindo fabricantes de automóveis e empresas de robótica social, na integração de seu software de análise de face e reconhecimento de emoções; bem como com criadores de conteúdo de vídeo para ajudá-los a medir a eficácia percebida de seus criativos de vídeo curtos e longos. Emoção reconhecimento e análise de emoções estão sendo estudadas por empresas e universidades em todo o mundo.
Detecção mentirosa
A percepção multisensorial da emoção é útil na avaliação da veracidade das elocuções, mais especificamente na detecção de mentiras, onde as mentiras devem ser entendidas como declarações enganosas deliberadamente falsas. Embora não seja um indicador universalmente válido para a certeza das mentiras, o mimetismo, os gestos, a linguagem e a postura podem fornecer pistas. Relativamente confiáveis são sinais inconscientes ou não controláveis, como a largura da pupila, a linha de visão ou o rubor. Além disso, a atenção deve ser focada cada vez mais nas discrepâncias entre as várias expressões verbais e não verbais de uma pessoa.