新闻中心

干货 | 语音合成PK声纹识别,两大AI技术的暗战

2019-11-13

    

“源”开则行、“机”智则灵,11月1日,杭州未来科技城汇聚了国际人工智能领域学术界、产业界及企业界的专家代表,2019 AIIA人工智能开发者大会拉开帷幕。除大会主论坛外,另设11个技术与应用前沿分论坛,及两场公开课。得意音通作为智能语音界的杰出代表,与阿里、思必驰、移动、信通院等一同亮相,向与会嘉宾分享“语音合成之‘矛’VS声纹识别之‘盾’”。


语音合成技术的日趋完善给我们的生活带来了趣味和便利,却也暗藏真假难辨的玄机,声纹识别技术能否顺利识破语音冒充者?


得意音通创始人、清华大学听觉智能研究中心主任郑方博士为大家解惑。
(以下演讲实录由会议速记整理)
 
郑方:谢谢大家,下午好!今天我向各位分享语音合成的攻击以及声纹之间的“矛与盾”的关系。为什么要讲这个呢?就像刚刚主持人提到的现在声纹识别应用比较广,但是也面临各种形式的攻击。今天我们就来讲讲合成攻击和声纹识别的关系。

在今天我们可以注意到一些现象,比如说娱乐方面,大家觉得好玩,通过一些软件合成、模仿一些声音,可以达到角色扮演的娱乐效果。但是一些犯罪分子会利用一些假冒的语音来实行诈骗,试图攻击系统,这种情况并不少见,甚至已经形成了黑色产业链。可能很多人不一定了解,但是买卖语音的黑产是真实存在的。在网络上的一些渠道,可以随时去购买甚至定制一些声音。这些,不光构成隐私的泄露,还存在安全的威胁。

声纹系统会面对哪些方面的攻击呢?有四种:

一种是声音模仿,就是一个人来模仿你说话。另两种是语音合成和声音转换,这两个是我今天讲的重点。还有一种是录音重放检测,这个我们曾在国际大赛上得了冠军。
 
合成算法会通过参数合成,估计出关键参数,然后通过发声器模型,生成合成语音,进而发动攻击。我们主要针对合成语音的非自然性进行检测,只要检测到非自然的就是合成语音了。为了区分,在这里,我们把人的真实声音,叫作自然语音。

接下来可以先听听系统合成的声音是什么样?

听过三段来自腾讯、微软、百度平台的音频后,还是可以分辨出跟自然音有些不同的。但是我们说机器能不能知道它有不同,这就是个难题了。不可能所有的信息都由人来听,它有自然的地方,有不自然的地方。
 
先明确语音合成有哪些方法,找到方法才能对症下药。初女士(注:指思必驰副总裁初敏)是语音合成的专家,我有讲得不对的地方,到时候多给我拍一下砖。

合成方法其实有两种,一是SS,就是语音合成,是针对文本的,想办法合成声音。另一个是我拿到一个人原始的语音,通过一些参数的调整或者改变说话人的自然属性来合成目标人的声音,这就是声音转换,即VC。
 
矛盾1.png
                       
通过语音合成的技术起源,我们可以看到如果做得比较好的应该是针对我们的发声的机理来着手,有声道、声带等各方面的原理,然后去模拟出一些声音。
 
矛盾2.png
它常用的方法其中一个就是说我们通过单元选择,我能找到你这个要合成的文本所对应的声音,然后选出一些相关的音素或者音节或者半音节,然后拼接起来。当然,实际情况要做一些别的处理。另外一些方法有对统计参数的估计,包括端到端的技术等等来实现合成。这是合成所用的方法。
 
矛盾3.png
对于语音转换,涉及到要学习一个人的特性。它会对这个声音进行一定的频率弯折,不同人的声音频率不同,通过弯折就得到不同的声音特性。当然也有利用一些类似TTS的方法来进行合成的。这是语音转换所用的方法。
 
那我们怎么防止攻击呢?有两类方法可以用来检测。

第一,我如果能有办法把这个说话人的特性刻划或者描述得非常准确,而用合成办法很难合成出人本身固有的特性,那么合成语音就不能完成攻击了。但其实这个很难,因为这需要我把人的语音本身认识清楚,这是非常困难的。

第二,主流的方法就是检测合成语音里面“不自然”的东西。如果你找到了,那么这个语音就是合成的。
 
矛盾4.png
我们可以从语音的频谱来看,频谱存在幅度、相位、基频。左边是自然语音,右边是语言转换和语音合成的,大家可以看到有很多不同。其中,基频在语音合成里面非常平,对于真正自然的音里面的跳动是非常大的,因为各种原因,情绪、语音都会有影响。所以可见还是有一些不同的地方。

矛盾5.png
对于合成语音,里面相邻的帧之间的动态变化相对小,这是由于合成算法往往做了一些规整、平滑所导致的。
 
矛盾6.png

合成语音的频谱的包络往往趋于平滑。大家可以看到右边这个图,对于低频频谱包络的低频部分,自然语音和合成语音差不多。但是我们如果看第24阶,也就是频谱包络的高频的部分的时候,区别就明显了。自然语音会有明显的起伏,而合成语音就相对就拉平了,这个就是合成音所存在的不自然现象。
 
矛盾7.png

还有一些,我们可以看到基于单元选择的合成方面,F0会出现一些突变。而基于统计参数的方法,F0过于平滑,这也是它出现的一些不自然现象。
 
矛盾8.png

当然还有就是相位的信息,相位信息为什么会有很大的变化呢?我们知道人其实对相位是不敏感的。你把相位信息去掉,然后识别人的声音,是一定没问题的。因此,合成语音不需要刻意追求真实相位,合成出来的声音人听起来也差不多。所以,在识别的时候,我们要反着来,去检查这个相位里是否存在不自然的现象。你会发现,这个相位里面也会有很多不同的变化,可以针对性的进行检测。
 
矛盾9.png


此外,基于人耳的听觉原理,你可以发现左边这个图不同位置的响应是不一样的。所以我们可以模仿人耳的听觉原理,构建一个新的特征提取方法CFCC。通过提取CFCC,可以看到这个谱分别对自然语音和合成语音,会有很大的差别。


 
矛盾10.png

差异往往存在于一些细节之处,因而,我们需要提高分辨率,才能发现这些细微的差异。这提出了一个新的参数叫CQCC,其中这个Q是常数,它能在低频的时候有更长的窗,高频的时候用更短的窗。可以发现,这个原始音和合成音的谱也会有很多的不同,从中可以找到很多的线索。
 
矛盾11.png
这是国际上的评测结果,可以看看对于合成音检测,目前达到一个什么情况。左边是所用的数据库的介绍,右边是比赛的结果。结果显示,最好的系统的检测错误率可以低至0.003%,对于未知攻击类型,错误率最低在2.013%。
 
矛盾12.png
对于2019年LA的比赛中,EER可以则做到0.22%。所以在语音方面来说,对于合成声音攻击的检测还是做得不错的。但是对人脸合成现在还很难检测出来,语音却可以做到这一点。
 
我们可以看看语音的特点,从中找到更多的线索和方法。右边是语音的信号,包含了很多信息量,所以我们可以用其他的线索包括复原信息里面。我们可用线索有情感、音量、语速、音调或者语调,对于合成,有时候或者拉平,或者说比较大的突变,这个可以作为一个很重要的线索。非语言信息也可以使用,比如说口音信息,如果你发现他拼接起来的语音,一个是四川口音,一个是湖南口音,这就肯定不是一个人说的。还有环境,你是在一个火车站,还是在机场,你会发现两个拼接效果不一样。身体状况也是如此。所以我们可以看到,在语音里面蕴含有诸多的信息,只要能找到一个线索就能知道它是不是合成的。




矛盾13.png


在这个意义上来讲,我们相当于是做攻防,比较容易找到办法。未来的识别系统可能会有一个新的方向,怎么讲呢?我们将检测这种攻击的模块与我们说话人的确认系统联合在一起,有串联的、并联的和融合的三种策略。所谓串联就是先做攻击的检测,再做说话人的确认。并联就不需要了,我要在做攻击检测的同时也做说话人的确认,然后把两个分数做判断,这样它会产生几种不同的结果。融合就是把两个模块融合在一块,最后看统一的结果这个人如果是真人,并且不是录音重放或者其他的方法得到的,可以通过;如果是真人但是经过录音重放了的,也不能过。所以这是一个综合系统。



最后简单介绍一下我们团队的工作。这些工作是由一个联合体来做的,我们叫做“化合态”的校企合作。得意音通负责产品转化,提出问题需求,清华大学做问题研究,从技术上进行攻关。清华大学是得意音通的股东,两方也建立了联合实验室,这就将产学研深入结合在一起,产生很好的效果。

我的介绍就到这,谢谢各位!   
   

大会由中国人工智能产业发展联盟主办、中国信息通信研究院和之江实验室共同承办,主要围绕智能教育、智慧规划、计算机视觉+安全、智能物流、开源开放、智能语音、自然语言理解、智能基础设施、智能医疗、优秀人工智能园区、未来社区等热点技术和应用展开分享。



地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备