情感识别

情感识别是识别人类情感的过程,最常见的是来自面部表情以及言语表达。 这是人类自动完成的事情,但也开发了计算方法。

科学定义情感
情感必须与感觉,情绪和个性的概念区分开来。 感觉是 例如,当你在墙后面感到蒙面人时,就会感到害怕。 然后你感到恐惧。 当认知地评估这种身体变化时,感觉只会变成一种情绪。

例如,如果有人将他的心跳追溯到蒙面男子身上,那么人们会说恐惧。 然而,如果他回到他暗中所爱的人身上,就会说出快乐。 情绪通常只持续几秒钟,并具有明确定义的开始和偏移。 另一方面,情绪可持续数小时,数天甚至数周。 如果有人说他今天心情不好,那他心情不好。 然而,这并不一定与情绪有关。

通常,特定情绪可以增加或减少特定情绪发生的可能性,但这两种情况必须在分析上分开。 最后,需要将个性与情绪区分开来。 例如,一个胆怯的人永远消极过度兴奋。 通过这种方式,人们可以想象在时间轴上排列的感觉,情感,情绪和个性 – 一方面是感觉,一方面是短期,另一方面是个性,长期方面。

人的
人类在识别情感方面表现出普遍的一致性,但在个人能力方面表现出很大的差异。 这一直是心理学研究的一个主要课题。

交叉竞赛效应
两个人之间的情感认同受到强烈波动的影响。 在心理学中,已经发现了一种被称为跨种族效应的现象。 这种现象意味着当要识别的情绪属于不属于与观察者的文化或种族相同的文化或种族的面部时,情绪识别率较低。 但是,这种效果可以通过一种培训形式来克服。

视觉模仿识别
这部分通常被称为面部表情。 作为人机界面,使用数字摄像机或等效光学输入设备。 这里,面部识别的方法用于分析面部表面的特征。 通过自动分类,可以将串行帧的面部表情与可能与情绪相关联的聚类相关联。 然而,研究表明,只有30%的模仿情绪与真正感受到的情绪相对应。 因此,不应将视觉面部表情与视觉情感识别等同起来。 视觉情感识别的生物学背景是机器人中人类视神经的模拟。

情绪感应
对于情绪心理学,行为伦理学,神经心理学和许多其他科学领域的实验环境,在实验室条件下“产生”特定情绪通常很重要。 情绪诱导是情绪研究中最困难的领域之一。 关于这个主题的几个荟萃分析提取了几种可以最有效地诱导情绪的方法。

首先是在现实中捕获情感(关键字领域研究)。 由于内部效度低,通常会避免这种情况。 第二种方法结合了高内部和高外部效度,是情绪回忆的方法,其中人们试图从情绪记忆中唤起记忆。 对EEG情绪研究之外的实验不鼓励的是通过诱导方法,例如IAPS或诱导方法,据称使用引发情绪的电影序列或音乐片段。 所有这些方法仍然没有具体有效性的证据。 机器人技术通常使用理想化的实验程序,例如:

诱导方法应该诱导人类的情绪。
男人用变脸的脸表达他的情感。
计算机上的网络摄像头捕获新的面部表情。
计算机可以通过将情绪分类为先前诱发的情绪来自动对情绪进行分类。

在完成学习阶段之后,AI应该能够独立地识别情感而无需先前由人类教过。 然而,由于诱导方法通常都没有经过功效测试,也没有在实验过程中评估诱导情绪,因此机器人技术中的这些理想化实验程序通常仍然是错误的和不完整的。

自动
该过程利用来自多个领域的技术,例如信号处理,机器学习和计算机视觉。 可以采用不同的方法和技术来解释情感,例如贝叶斯网络,高斯混合模型和隐马尔可夫模型。

途径
情感识别的任务通常涉及以多模式形式(例如文本,音频或视频)分析人类表达。 通过整合来自面部表情,身体运动和手势以及语音的信息来检测不同的情绪类型。 用于对某些情绪类型进行分类的情感识别中的现有方法通常可以分为三大类:基于知识的技术,统计方法和混合方法。

基于知识的技术
基于知识的技术(有时称为基于词典的技术)利用领域知识和语言的语义和句法特征来检测某些情绪类型。 在这种方法中,在情感分类过程中使用基于知识的资源是常见的,例如WordNet,SenticNet,ConceptNet和EmotiNet,仅举几例。 这种方法的一个优点是这种基于知识的资源的大量可用性带来的可访问性和经济性。 另一方面,这种技术的局限性在于它无法处理概念细微差别和复杂的语言规则。

基于知识的技术可以主要分为两类:基于字典和基于语料库的方法。 基于字典的方法在字典中查找意见或情感种子词,并搜索他们的同义词和反义词,以扩展最初的意见或情感列表。 另一方面,基于语料库的方法从意见或情感词的种子列表开始,并通过在大型语料库中查找具有上下文特定特征的其他词来扩展数据库。 虽然基于语料库的方法考虑了上下文,但它们的性能在不同的域中仍然不同,因为一个域中的单词在另一个域中可以具有不同的方向。

统计方法
统计方法通常涉及使用不同的监督机器学习算法,其中将大量注释数据馈送到算法中以供系统学习和预测适当的情绪类型。 这种方法通常涉及两组数据:训练集和测试集,其中前者用于学习数据的属性,而后者用于验证机器学习算法的性能。 与其他方法相比,机器学习算法通常提供更合理的分类准确性,但是在分类过程中实现良好结果的挑战之一是需要具有足够大的训练集。

一些最常用的机器学习算法包括支持向量机(SVM),朴素贝叶斯和最大熵。 在无人监督的机器学习系列下的深度学习也被广泛用于情绪识别。 众所周知的深度学习算法包括人工神经网络(ANN)的不同体系结构,例如卷积神经网络(CNN),长期短期记忆(LSTM)和极端学习机(ELM)。 深度学习方法在情感识别领域的普及可能主要归功于其在相关应用中的成功,例如计算机视觉,语音识别和自然语言处理(NLP)。

混合方法
情绪识别中的混合方法本质上是基于知识的技术和统计方法的组合,其利用来自两种技术的互补特征。 一些应用了知识驱动的语言元素和统计方法集合的作品包括sentic computing和iFeel,两者都采用了基于知识的概念级资源SenticNet。 这种基于知识的资源在混合方法实施中的作用在情绪分类过程中非常重要。 由于混合技术从基于知识和统计方法提供的益处中获益,因此与独立采用基于知识或统计方法相比,它们往往具有更好的分类性能。 然而,使用混合技术的缺点是分类过程中的计算复杂性。

数据集
数据是情感识别中现有方法的组成部分,并且在大多数情况下,获得训练机器学习算法所必需的注释数据是一项挑战。 虽然大多数公开可用的数据没有注释,但是现有注释数据集可用于执行情绪识别研究。 对于以文本,音频,视频或生理信号的形式从多模态源分类不同情绪类型的任务,可以使用以下数据集:

HUMAINE:以多种形式为情感词和上下文标签提供自然剪辑
贝尔法斯特数据库:提供来自电视节目和采访录音的各种情感片段
SEMAINE:提供个人和虚拟代理之间的视听录音,包含情绪注释,如愤怒,快乐,恐惧,厌恶,悲伤,蔑视和娱乐
IEMOCAP:提供演员之间的二元会话记录,包含情感注释,如快乐,愤怒,悲伤,沮丧和中立状态
eNTERFACE:提供来自七个国家的主题的视听录音,包含情感注释,如快乐,愤怒,悲伤,惊讶,厌恶和恐惧
DEAP:提供脑电图(EEG),心电图(ECG)和面部视频录像,以及观看电影片段的人的价值,唤醒和支配地位的情感注释
DREAMER:提供脑电图(EEG)和心电图(ECG)记录,以及观看电影剪辑的人的价值,唤醒和支配地位的情感注释

应用
计算机程序员经常使用Paul Ekman的面部动作编码系统作为指导。

情感识别的使用有很多种原因。 Affectiva使用它来帮助广告商和内容创作者更有效地销售他们的产品。 Affectiva还制作了一个可以测量自闭症儿童情绪的Q传感器。 Emotient是一家初创公司,利用人工智能来预测“基于面部表情的态度和行为”。 Apple表示有意在2016年1月收购Emotient.nViso通过实时API为网络和移动应用程序提供实时情感识别。 Visage Technologies AB提供情感评估作为其Visage SDK的一部分,用于营销和科学研究以及类似目的。 Eyeris是一家情感识别公司,与包括汽车制造商和社交机器人公司在内的嵌入式系统制造商合作,整合其面部分析和情感识别软件; 以及视频内容创作者,以帮助他们衡量短篇和长篇视频创意的感知效果。 世界各地的公司和大学正在研究情绪识别和情绪分析。

说谎检测
多感官情绪感知有助于评估话语的真实性,更具体地说是检测谎言,谎言应被理解为故意虚假的欺骗性陈述。 虽然它不是谎言确定性的普遍有效指标,但模仿,手势,语言和姿势可以提供线索。 相对可靠的是无意识或不可控制的信号,例如瞳孔宽度,视线或发红。 此外,应该越来越多地关注一个人的各种口头和非口头表达之间的差异。