新闻中心

情感识别专题 | 机器拥有情感将会怎样?

2019-04-01

    

愚人节到了!

又可以随便说谎(zhen)话了!

不管你说的是真是假,

都希望有一个“懂你的人”,

但它有可能是个机器人。


先来看看不懂情感的机器人是什么样?

 

 

这是发生在吉林长春一家银行里的真实案例,你可以将机器人的回答和处理理解为“呆萌”,但本质上,机器人还不具备充分理解人情绪的能力。

 

即情感识别。

微信图片_20190329174009.jpg


3月底,《中国人工智能学会通讯》刊发了一期以情感识别为主题的专刊,得意音通创始人、清华大学语音和语言技术中心主任郑方博士受编辑部之邀为专刊组稿并撰写前言,清华大学、东南大学、中国人民大学、大连理工大学、哈尔滨工业大学(深圳)、中科院自动化所等高校研究院所的专家学者均在情感识别专题中发表了系列文章。  

      

中国人工智能学会通讯2019年第3期-7.jpg

                    

《中国人工智能学会通讯》杂志由中国人工智能学会(CAAI)主办,以刊发行业学术文章为主。

 

据小编了解,情感计算这一概念来自MIT媒体实验室,起初是个相对冷门的领地,随着计算机与认知科学的进步,情感智能的观念在AI研究界正变得越来越重要。

 

情感计算有两大维度:识别与表达。所谓识别,就是机器判断出人类的情感;所谓表达,就是机器模拟出人类的情感。


情感识别中又存在几大派别,分别是(小编为叙述方便这么叫的,其实是不同的研究方向):


以研究音频为主的,小编这里简称为“语音派”

以研究究视频、人脸表情为主的,简称 “画面派”

以研究文本内容为主的,简称“内容派”

还有研究多模态识别的,简称“多模派”

 

《中国人工智能学会通讯》情感专题中以上几种类型都有涉及。

 


“语音派”


 

语音情感识别首先想到的可能是手机助手,拥有情感识别加持的手机助手,化身成为你的贴心小管家,让你的手机更像一个陪伴的伙伴,代表“人物”:亚马逊的语音助手Alexa。

 

除了提供这种个性化的服务,语音情感识别还可以应用在安全领域,可以识别你的恐惧、愤怒等异常的情绪,判断你所处的环境是否存在危险,例如在使用声纹转账时,恐惧的情绪会导致转账失败;乘出租车时,情绪异常的对话会触发警报等。

 

本期专刊中,涉及语音情感识别的关键性技术的文章有:(文中所有提到的文章,请点击文末左下角的阅读原文即可查看原文)


  • 《语音情感识别技术的关键技术及研究动态》

  • 《语音情感识别研究进展》

  • 《语音信号中的隐形情感特征分析与识别》

 

从清华大学的专题文章中了解到,语音情感识别系统主要由情感特征提取和情感识别两个部分组成:

微信截图_20190329174211.png

提取的语音情感特征包括以下几种:


局部特征 :通常采用韵律学(prosody)特征、谱(spectrum)特征、声音质量(voice quality)特征,作为初始的基础特征集,然后采用特征选择等方法去除一些冗余的特征,最后使用选择出的局部最优特征。

全局特征:是对这些帧级别的声学特征做一些融合和统计得到的。

另外一些特征则是在语音识别和声纹识别中获得了较好效果的一些特征,例如i-vector和g-vector。

 

文中虽然提到了语音情感识别最新的突破性进展,但未来任然面临难点与挑战。


(1)   真实环境下语音情感数据库稀缺,现今情感数据库大部分是由专业的演员在给定情景下表演得到的。

(2)   人们对于外部世界的主观感受不同,这就导致在情感数据库的构建中,不同的标注者标注出的情感标签或者数值也有所差异。

(3)   情感是一个复杂的概念,各种情感之间并没有一个严格的界限,很多情感也并不是独立存在的。

 

语音情感识别通过多种模态结合,例如结合图像、动作、表情等,将提高情感识别准确率,这也是情感识别领域的下一个研究方向。

 


“画面派”



人脸情感识别在各类人机交互(HCI)产品中的重要性不言而喻,无论是智能问答机器人、智能医疗看护系统,还是在自动驾驶、生产安全等方面。视频中所蕴含的情感信息丰富而复杂,通常融合音频和图像这两个模态,音频又可以细化为人的声音和背景配乐的声音,而图像则可以分为人脸特征、物体特征和动作特征等。除此之外,还有文本信息,包括剧本和人物的台词等。

 

本期专刊中,涉及视频、人脸表情情感识别的文章有:

  • 《视频情感预测问题的进展及趋势》

  • 《让机器学会察言观色--人脸情感识别》

 

以下内容摘取自《视频情感预测问题的进展及趋势》


正如之前介绍,视频中包含有音频、图像、文本等多个模态,如何将这些模态进行合理的融合呢?

常 用 的 方 法 包 括 早 期 融 合(Early Fusion)和晚期融合(LateFusion)。前者又称为特征级别融合,顾名思义就是在预测模型前进行融合,其融合方法比较单一,一般做法是直接将各个模态的特征拼接成一个更长的向量,然后将这个更长的向量送入模型中进行训练,如图(a)所示;后者则是训练多个不同的模型,每个模型使用来自不同模态的特征,最后在每个模型的输出层面进行融合,如图(b) 所示。

微信截图_20190401141252.png

最简单也是最直观的做法是直接将各个模型得到的输出结果进行算数平均,得到最后的结果。稍微复杂的融合方法可以对不同模型进行加权平均,更复杂的融合则可以使用非线性模型,例如人工神经网络或是极限学习机(ELM)等。

 

另外,还有许多研究者针对具体数据集和视频特点,使用多种融合方式的组合,或是在数据集上比较了不同融合方式的性能。

 

想继续了解其他几派的文章,请点击阅读原文。

 



 “内容派”



  • 《双关语研究进展》

  • 《基于对抗学习的讽刺识别》

 



“多模派”



  • 《基于多模态融合的情感识别研究》

 



情感表达



  • 《机器作诗能否产生情感》

 

附送郑方博士在前言中提到的一段话:



“我们相信,未来的情感计算一定是多模态的,这是因为当人们传递信息时,情感会在文字中体现;但相同的文字,不同的韵律(蕴含在音频中)和不同的表情(蕴含在视频中)也可以表达出不同的情感甚至意图。所以,情感识别应该是从文本、语音、表情等分别分析出对不同情感类型的信任度,综合得出最能反映信息原本要传递出的真实的情感,所以说它本质上就是一个多模态融合的问题。这里面包含了情感的表达和情感的识别。”

 

“多模态情感计算的研究,不仅有益于情感智能本身的发展,还有可能在后深度学习时代开辟一条新的道路,产生出新的研究工具和 AI 方法论,从而使人工智能真正具有‘情感’。”



地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备