新闻中心

从“辨人”到“读心”, 清华-得意团队勇夺音频情感识别竞赛冠军

2018-05-22

    

当机器学会表演,人类将会怎样?

很遗憾,这一天还早了点儿。

 

不过,现在我们可以回答一下:

当人类开始表演,机器将会怎样?

 

答案是:识破人类。


近日,由中国科学院自动化所面向全球举办的2018年首届情感计算和智能交互亚洲会议(ACII Asia 2018)隆重开幕。作为本次会议的重要组成部分,2017年多模态情感识别竞赛(MEC 2017)颁奖典礼于5月21日在北京举行。

 

来自中国科学院自动化所、清华大学、中国人民大学、中国科技大学、中国科学院大学、西北工业大学、德克萨斯大学达拉斯分校、三星研究所等在内的31所国内外知名院校和研究机构的团队,参与了这样一项挑战:构建分析算法,从音视频数据里准确识别出人物的真实情感。

 

该挑战包括三项子任务:音频情感识别、表情识别及音视频融合的情感识别。参赛者通过在训练集及验证集上训练自己的模型,并最终根据在测试集的效果进行竞赛排名。

 

最终,清华大学-得意音通声纹处理联合实验室情感计算团队(研究生:张晓桐,导师:徐明星、郑方)从27支参赛队中脱颖而出,夺得音频情感识别子任务单项第一的优异成绩。

微信截图_20180523090910.png

ACII Asia大会主席陶建华(右)给张晓桐(左)颁奖

 


 

情感(emotion)一词源于希腊文“pathos”,最早用来表达人们对悲剧的感伤之情。进入现代,情感逐渐成为了认知心理学家们的研究对象。继图灵提出“机器可思维”的论断后,人工智能奠基人之一、MIT人工智能实验室的缔造者马文·明斯基进一步提出,“情感也是思维的一部分”,于是情感开始进入AI研究者的视野。他在《情感机器》一书中强调:拥有情感的智能才是真正的人工智能。

微信截图_20180523091019.png

在这本书里,马文·明斯基向人们描绘了一台具有情感的智能机器是什么样子。

 

近年来,随着人工智能技术的不断发展成熟,情感识别已逐渐成为人工智能未来的前进方向。但从实验室向工业界的跨越,却远不像人们想象的那么简单。

 

从去年开始,随着各种语音助手、智能客服轮番登场,很是热闹了一把,但是…体验究竟怎么样?谁用谁知道。

 

分不出对象是谁的助手,是“聋子”。

听不懂对象情感的客服,是“傻子”。

 

一些大机构把原来由人做的工作交给这些看上去很美的“聋子”和“傻子”,结果就是各种被坑。不仅不好玩,还很不安全。

 

可以说,众多智能语音助手之所以沦为给小孩的“玩具”,关键正是两大能力的缺失:声纹识别情感识别

 

而现在,得意音通正在运用最先进的技术,为机器的”耳朵”赋予这两大能力。

 

为了提高无监督身份认证中的人证合一性、不易伪造性和意图真实性,得意音通提出了“三生物特征融合+双活体检测+双真实意图检测”的高安全、低隐私体系架构,以充分发挥语音“形简意丰”的特点,为用户提供更加安全有效、也更加智能的优质体验。

微信截图_20180523091123.png

“三生物特征+双活体检测+双真实意图检测”架构

 

除此之外,得意音通还提出了“一句话解决所有问题”的安全可信的网络身份认证体系架构。

 微信截图_20180523091134.png

“一句话解决所有问题”架构


在上述两大体系架构中,情感计算都发挥着重要作用。

 

在”辨人术”基础上增加”读心术”技能,无疑将使识别更准确,更智能,也更安全。可以预期,这不仅将极大地丰富用户体验,还将提升我国网络信息安全的核心技术水平,改善网络信息安全态势。

 

情感计算,作为人工智能的高阶必备能力,已经开始汹涌。对于人类情感的捕捉和精确识别,已经开始在一些互联网产品上得到应用。得意音通在这方面已走在了国内智能语音公司的最前列。


微信截图_20180523091222.png


情感计算会是人工智能的下一个春天吗?对此美国斯坦福大学计算机科学系终身教授、人工智能实验室主任李飞飞教授这样认为,“未来,从情绪到情感,最是人工智能未来前进的方向。” 

地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备