新闻中心

虚假语音PK声纹识别,清华-得意团队ASVspoof2019夺冠

2019-03-29

    

在这个合成图片肆意蔓延、虚假新闻充斥的时代,一个可以让任何人说任何话的程序,似乎是引发更多麻烦的催化剂,但是人们对它的研究仍然乐此不疲。

 

刚刚结束的央视“3.15”晚会上,曝光了机器人拨打骚扰电话的黑色产业链,大众震惊,舆论哗然。大多数人们根本察觉不到,电话另一端那个甜美的声音竟是从AI电话机器的“嘴里”说出来。

 

在今年全国“两会”期间,央视启用了一款名为“小白”专为两会服务的AI记者助理。这名“小白”,深得著名主持人白岩松“亲传”,声音与白岩松老师相似度极高,就连白岩松自己都称赞“小白”的声音“唯真性高”。

 

央视1.jpg

“小白”本人


在产业界,阿里达摩院年初发布了《2019十大科技趋势》,其中“语音AI在特定领域通过图灵测试”在智能语音产业界造成了一波震动。据说,最新的语音合成技术只需要1分钟的声音样本,就可以模仿任何人说话……


当一个和你声音一模一样的人出现,或者仅仅播放一段特定的录音就可以轻松模仿任何人,你究竟是感到欢喜,还是该感到惊慌?

 

如果这项技术被不法分子利用在银行账户转账、移动支付验证或者电信诈骗上,后果又会是怎样?

 

先别着急下定论,把心放到肚子里来看看下面这则新闻。

清华-得意团队夺冠

夺冠.jpg

近日,2019年自动说话人识别欺骗攻击与防御对策挑战赛(Automatic Speaker Verification Spoofing and Countermeasures Challenge,ASVspoof2019)组委会公布了竞赛成绩,清华大学-得意音通声纹处理联合实验室团队(博士生:程星亮,指导老师:徐明星、郑方),在156支参赛队中脱颖而出,获得防录音攻击挑战任务全球第一的骄人成绩,与第二名相比等错误率(EER)相对降低27.8%,与基线系统相比EER相对降低96.5%,遥遥领先于其他所有参赛团队。这是清华大学-得意音通声纹处理联合实验室继在ASVspoof 2017综合性能获得第5名之后,再冲新高。



说话人识别即声纹识别,是根据人说话的声音,判定人的身份的技术。但其容易受到虚假语音的攻击,包括:声音模拟、语音合成、声音转换、录音重放(含录音拼接重放),此类攻击极大地影响了声纹识别系统本身的安全性,进而也给采用声纹识别技术进行访问控制的系统带来了安全隐患。


由英国爱丁堡大学、法国国家信息与自动化研究所、日本NEC等组织发起的ASVspoof 2019,是迄今为止针对虚假语音鉴别规模最大、最全面的的挑战赛,针对上述问题举行了两项子挑战,分别检测不同的虚假语音:一是用语音合成、声音转换技术产生数字语音,直接输入系统(不用麦克风)进行逻辑层面的攻击(Logical Access);二是使用录音重放的方法,经过麦克风进入系统进行物理层面的攻击(Physical Access)。在实际应用中,语音合成及声音转换技术生成的语音也需要经过重放环节转化为Physical Access,因此清华大学-得意音通团队选择将重点放在了Physical Access挑战赛上。


参赛者使用训练集和开发集进行模型设计和参数估计,提交测试集上的识别结果,由组织者对检测效果进行分析统计,排出参赛队伍的名次。


为本次挑战赛提供数据库支持的是包括Google在内的19家科研机构。其中,谷歌新闻计划团队(Google News Initiative, GNI)和谷歌的人工智能研究部门(Gai prinoogle AI)为挑战赛提供了精心制作的合成语音数据库。数据库的语音内容来自英文报纸,包含数千个单词。为了使数据更具有挑战性,团队使用商业级语音合成模型,合成了68种不同的语音,数据覆盖了多个地区的口音。参赛者需通过对真实语音数据和计算机生成的语音数据进行建模,构建可检测虚假数字语音的模型。


数据库贡献者.png

本次比赛数据库创建的贡献者


此次大赛的详细结果,将在语音领域国际顶级学术会议Interspeech 2019(9月中旬在奥地利格拉茨召开)上予以发布。敬请关注。





关于防攻击



在越来越多学术团队加入防攻击赛事PK的同时,中国在实际应用上已走在前列。在去年央行发布的《移动金融基于声纹识别的安全应用技术规范(JR/T 0164-2018)》中就明确规范了移动金融领域中声纹识别技术需具备的防攻击能力:


(1)防语音模仿

(2)防语音转换及合成

(3)防录音欺诈

(4)防录音拼接欺诈

 

实际上,声纹识别系统的攻与防还不只是针对虚假语音。攻与防一直在角力,而且防处于不利地位,比如攻在暗、防在明,比如攻只需破一点、防则须保全部。为此,得意音通早在几年前便开始布局,现已研发完成了声纹识别技术的7种防攻击利器。其中“录音重放检查”技术还只是得意音通众多前沿技术储备之一,未来还将有源源不断的创新技术运用于声纹识别产品当中。

 

七种武器.jpg

得意声纹身份认证的“七种武器”





厚积于清华语音和语言中心近40载的声纹识别技术和语音识别技术等,得意音通还在声纹识别的噪音鲁棒性、时变鲁棒性(全球唯一),以及用于真实意图检测的情感识别(国际第一)等方面都有积累,得意音通的声密保(V3.0.37)也是目前唯一符合央行标准《移动金融基于声纹识别的安全应用技术规范(JR/T0164-2018)》的产品。



地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备