新闻中心

臻云创投 | 从资本的层面看,声纹是马上将到来的一个风口

2018-01-24

    

转载自:臻云创投 公众号


编者按:臻云智能(北京)投资管理有限公司由臻迪集团联合英诺天使、佳讯飞鸿发起,专注于智能化领域的早期投资。重点投资机器人、先进制造、人工智能和大数据相关领域。臻云创投入选清科-2017年中国人工智能领域投资机构10强。


一直以来,安全都是大数据发展中面临的重要问题。面对大数据时代严峻复杂的安全问题,尤其是随着大数据产业深入发展,新形势下的数据安全、隐私安全乃至大数据平台安全等均面临新的威胁和风险。得意音通董事长郑方博士,应邀参加臻享会[大数据之安全Talk] ,与现场观众一同探讨信息安全的重要性。以下内容依据现场速记稿件整理。



今天讲的题目是语音信号与无监督身份认证。这里包含很多方面,当然也和在座各位关心的资本相关。因为从资本的层面看,声纹是马上将到来的一个风口。


接下来要和大家分享一下我们在研究和开发以及市场方面实践的一些体验。我的报告分为五个部分:无监督身份认证的技术要求、现状分析、语音信号的特点、无监督身份认证的理论和实践,以及未来设想。



安全的“最后一厘米”



现在的互联网发展非常快,2018年5G牌照将发放,无线互联网、移动互联网改变了人么的生活方式,使人和人的交往空间变的非常大。还有一个因素是智能手机等移动终端的快速普及,中国智能手机的用户量达到了八亿,若考虑所有类型的手机,则接近百分之百的水平。我们会发现“空间”其实有两个,一是物理空间,二是网络空间。网络空间一般会被称为在线,或线上。


微信图片_20180124145508.jpg


但是从安全角度来看,不应简单按照这个区分,而是应分为有监督和无监督两种情形。物理空间很多是有监督的情形,比如你在机场登机,肯定有人检查你的证件,这就是有监督。物理监督也有无监督的,比如开一个门,旁边没有人看见你,这就是无监督。当然,网络空间肯定是无监督的。可见,在不断变大的交往空间里,无监督情形比有监督情形要大得多。那么在没有人监督的时候,该如何证明一个人的身份?如何确认你是否有权利进入特定的空间和系统?这时候,安全就是很大的问题。这个安全问题要解决,就是无监督情况下的身份认证,目的就是保障安全的“最后一厘米”


安全涉及的领域非常宽泛,有存储安全、传输安全、网络安全等,这些安全现在做的非常不错,但是有一个还没有彻底解决好,那就是最终进入系统时人的身份确认问题


我曾经打过一个形象的比喻。用炮弹都打不开的一个房子,安全做的非常好,铜墙铁壁嘛,但是若钥匙很容易被人拿走,这个就很不安全。反过来,如果钥匙很厉害,但墙不坚固这也不行。这二者是相辅相成的。现在我们讲的是在其他安全很不错的情况下,怎么做好访问控制安全,也就是身份认证。当然,因为手机和人靠得很近,可以借助智能手机这样一个离人很近的设备,来保障这最后一厘米的安全,实际上就是解决人和机器的一致性问题。



无监督身份认证的技术要求



要解决在无监督情况下的身份认证,到底应该怎么做?有五个要求:

第一,人证合一:用一个证件,不管是虚拟的还是实体的,证件和人必须一一对应,具有唯一性;用于证件的技术必须具有准确性。


第二,不易伪造性:如果证件容易被人伪造拿来用,那么肯定有缺陷。对于我们来讲,必须要防止复制,对于利用生物特征识别的证件,要能进行活体检测以防假体攻击。


第三,意图真实性:有了活体检测还不够,意图真实性不能保证则不行,这个比较抽象。举个例子,当你喝醉酒时,别人拿你的手指用你的指纹解锁了你的手机,它可以检测出确实是活体,不是假体。再举个例子,别人用一个长焦镜头对着你,距离很远,一叫你名字你一回头,你的脸就可以解锁你的手机了,这人脸也是活体。这两种情形下的生物特征都是活体,但这肯定不是机主本人有想打开这个手机的真实意愿。


第四,证据可溯性:证据验证完,我必须要知道下次验证和这次是不一样的,证据必须是活的,所以它要有时间和空间的印记在里面。比如若使用传统的身份证,在不同情形下的复印件,是没有不可伪造的时间信息的。


第五,认证便宜性:一是便(pián)宜,成本要低廉,二是便(biàn)宜,对设备、平台依赖性要低,使用才方便。


微信图片_20180124145512.jpg


这五个方面,是未来做无监督空间的身份认证必须满足的五个要求。



国内外现状分析



就目前的现状来看,美国在2011年就发布了《网络空间可信身份国家战略》,计划用10年时间,构建一个网络身份生态体系,推动个人和组织在网络上使用安全、高效、易用的身份解决方案;欧盟委员会2006年发布了《2010泛欧洲eID管理框架路线图》,从欧盟层面层层规划了eID实施。


FIDO联盟系列规范使用生物特征识别技术,取代用户名/口令鉴别的传统方式,解决当前网络环境下认证设备之间缺乏互操作性,以及用户需要创建并记住多套用户名、密码的问题。FIDO实际是相当于高速公路,上面跑的车就是各种不同的认证身份手段。这个联盟已经存在很多年。中国也有单位参加,我们的战略合作伙伴“国民认证”就是中国区的主席单位。


中国在这方面也有解决方案。2013年中国通信标准化协会就设立了网域空间身份管理标准子工作组,公安部三所牵头制订了30+项eID标准。2016年公安部一所开始研发“网络可信身份认证服务平台”,为每个人生成终生唯一编号的身份证网上副本,实现实名+实人+实证。一所做的是以多维身份识别和可信身份认证作为主要研究重点,更具体的说就是以生物特征作为主要方向。


生物特征有两类,第一类:生理特征,指纹、人脸、虹膜、掌纹、指静脉等。第二类:行为特征,声纹、签名、步态/手势、键盘敲击等。两类特征都是唯一的,但生理特征静态不变,行为特征却是随着应用场景、交互人群、年龄、文化背景等而变化。比如,甚至同样环境、同样人群,说的内容都不一样,变化非常大,这是非常明显的差别。


所以过去通常认为,“行为特征变,效果一般;生理特征不变,效果非常好。”但这句话被AI打破了,AI出来以后发现所有静态的东西都可以被复制,连虹膜都可以被复制。


今年10月24日上海GeekPwn极客攻防赛请我去做评委,90后的小朋友用时最长两分半、最慢几秒钟就把指纹、虹膜、人脸的识别系统全部攻破。其中就有大家认为安全系数最高的苹果产品,它虽然用了很多传感器,很厉害,但也不行了。再举个例子,有一次我在深圳机场VIP候机楼,它有用指纹锁的寄物柜,我想把一个行李箱暂存在里面,结果没有想到预先用手指一试,结果把别人的柜子打开了。可见指纹的识别率并不高。


极客攻防赛一个叫小灰灰的90后小伙子,说生物特征是不变的,具有不可撤销性,所以都可以被轻易攻破,虽然这次没有把指静脉放进比赛里,但赛场外已经被成功攻破。


微信图片_20180124145516.jpg


所以,过去认为生理特征最大的优势是不变,是稳定;而现在看来其最大的问题也是不变,因为非常容易被盗取。



语音有什么特点



总结一下声纹的特点。“大音希声”。辩证的高度统一。只需轻轻的一句,我就判断出身份来了。这究竟是劣势还是优势?声音高度可变,同一个人说的同一句话每次都不一样,不同人更不一样。随着内容、情感、年龄、时间等不同,声音都不一样。这究竟是劣势还是优势?


微信图片_20180124145519.jpg


声音还有什么特点?在各种生物特征中,声音是唯一可双向传递信号的,既可以接收信息,也可以发出信息,可以实现交互。第二,唯一周边无死角,可以实现非接触式采集,方便使用。第三,也是从安全性来讲最重要的一点,就是高可变性与唯一性的完美统一。没有两个声音是一样的,但里面蕴含的信息,比如你是谁?你的年龄?你的情绪?等信息都是确定的。这种高可变和唯一性的完美统一就使别人攻击很难了。


声音有“形简意丰”的特点,它虽然只是一个一维信号,是自然界最简单的信号,但是有最丰富的信息,比如厉害的专家听一个词就知道你是哪里出生的。还有语种、说的内容、性别等信息,全都能知道。


当然,还有更多其他的信息。比如地点信息,是在会场还是机场?身体是否生病?等等。实际上声音里面蕴含的信息量非常广,很多很多信息都包含在里面。


再看人声音产生的过程,当你要发一个声音的时候,首先有一个想法,之后组织词汇、橘子,声道振动,最后通过嘴唇发出来。在这个语音产生的过程中,几层信息就会被编码进语音信号中。


这里面有三层信息。首先是:语言信息,即你想要说的语句、句子、词法、重点、语音等。这层信息可以用于防假体攻击,也可用于提供可追溯的证据。


第二层信息是副语言信息,它和语言有点关系,但又不是语言信息。比如态度、情感、意图和你的方言、社会方言等都会在副语言信息显现,通过音高、音量和质量、语调等形式都表达。通过副语言信息就可以判断意图的真实性。


第三层信息是非语言信息,比如健康状况、性别、年龄等。非语言信息可以帮助我们通过年龄、身体状况、背景噪音等情况,知道说话时的场景,辅助实现证据可追溯。

由此我们可以知道语音信号虽然仅是一维信号,在很多地方特别是解决防攻击问题、判断意图真实性的时候,可以很好地结合它的优势。另外,由于是一维信号,传输量小,好实现,成本低。



声纹识别的技术发展



关于声纹技术的发展,最早可以追溯到17世纪60年代,英国查尔斯一世之死的案件审判中。20世纪开始研究,1945年Bell实验室开始提出声纹概念,1962年第一次介绍采用此方法进行说话人识别的可能性。20世纪70年代研究者发现语音信号既包含底层的声学信息,也包含高层的韵律信息,然后慢慢的发展。


声纹技术涉及两层,一个是特征层,一个是模型层。特征(指特征参数)提取经历了长期发展,模型(指模型方法)也是如此。常用的特征参数很多,比如说倒谱系数、感知系数等。


基于图象的生物识别系统,很多非常容易被攻击,一方面因为生理特征的“不变性”,另一方面现在用的方法也有问题,比如CMU研制的一款眼镜,我只要戴着这副眼镜就可以进入他人的系统。所用的东西学术上称之为“对抗性纹理”。这是深度神经网络的方法不太容易避开的问题。它用到比较浅层的特征,所以指纹、虹膜、指静脉都可以用这个方法做出来,但是在模式划分层面不太容易。


声音的特征提取涉及信号、频谱、倒谱这三层。常用模型也有高斯混合模型(GMM)、通用背景模型(UBM)等,这里面也用了很多层信息。


微信图片_20180124145523.jpg


单就识别性能而言,声纹和其他生物特征的比较可以看一张图(注:DET曲线)。曲线离原点越近,性能越好。可以看到,人脸、指纹、掌纹、虹膜、指静脉和声音等特征中,其中性能最好的是虹膜,准确率最高,其次是声纹,然后是指纹,效果最不好的是人脸,还有指静脉。这是美国科学家做的研究,结果可能和我们在座各位想象的很不一样。所以说声纹的识别性能比人们想象的要高。



语音信号产品的防攻击手段



语音信号产品可以仅用软件来防攻击。通过和清华联合实验室的合作研究,我们已实现了七重防护手段,但市场上只投放了两重,其他暂时作为技术储备,等需求上来了或竞争对手跟上后再陆续投放。


第一重,动态密码语音:即验证时念的文本是系统动态随机分配的。


第二重,录音重放检测:比如说如果把录音剪辑后拼接成一段语音,然后经过一个播放系统放音进系统,这种攻击很难防,因为它就是真人的语音。但它和真人说的话还是不一样的,录放环节相当于一个滤波器,这个滤波器的传递函数不是矩形,会有波纹,纵然波纹波动很小,用耳朵可能根本听不出来,但我们的专利算法却可以识别出来。


第三重,自定义密码:就是说不光验证时念的文本是动态随机的,每个码的念法也完全交由用户自己设定,“音—文”对应规则对每个人都独一无二,攻击难度更大。这一步我们把人(注:人的管理)加进来了,安全性最高。


第四重:多特征+多活体检测。我们将声纹和唇语结合起来,检测“内容+时序”的完全一致性。提高了识别精度,也提高了防攻击水平。


前面讲的是在语音信号“仅以软件”就可以防攻击方面,我们开展的一些实践。


此外,语音信号还可以“仅以软件”检测真实意图,比如语音识别,情感识别,能检测到你是否恐惧,说话中若有恐惧就向数据中心报警。


第五,便宜,麦克风是手机标配,传输带宽低,语音是交流最自然的方式,人与麦克风不需要接触,跨平台无障碍。


微信图片_20180124145526.jpg


我们来看一张雷达图,从前面说的无监督身份认证“五性”的符合性来讲,除了准确性排在虹膜后是第二之外,其他方面声纹都是最好的。人脸、指纹、虹膜、掌纹、指静脉都没有那么大的面积(面积越小,符合性越低)。因此,声音是目前所有的生物特征中综合优势最好的。



微信图片_20180124145529.jpg

声纹应用回顾:从建行到万科



来看一看我们将语音信号运用于无监督身份认证的实践。


得意音通成立以后在核心技术、产品和服务、专利、标准四个层面做了布局,和清华大学之间建立了牢固的产学研通道,可称之为“化合态”的。


中国建设银行是我们商用产品的第一个试金石,不仅建行非常满意,自发用户数更是飞速增长,而且很多都是口口相传。


正因如此,建行把声纹几乎用在了电子银行的所有环节,除了登录以外,转帐、支付、无卡取款都使用。由于安全性高,建行把每天交易限额从五万提高到五十万,帮助提高了业务量。防攻击的用户体验也好,首年声纹交易数超过1.5亿次,零投诉。目前在ATM、手机银行等很多环节均有布置,未来远程登陆、远程开户也将会运用。据统计,人脸的投诉率很高,声纹则是接近0%,这是完全不一样的。


现在很多银行都在部署声纹识别技术,五大国行里除建设银行外,还有中国银行、中国工商银行、中国银联等。未来还将和公安部合作,面向更广泛人群提供声纹认证服务。


声纹应用这一块,最近万科找到我们,对“无监督身份认证”的理念很认可,计划合作探索“无人酒店”的新业态,具体来说就是无卡、无证、无钥匙,登陆用声纹,开房门用声纹,走人自动关闭。



未来场景设计:“声纹+”是最好方案



最后,关于未来设想。语音信号很简单,但是应用空间却很大。第一,酒店入住,我们的模拟系统,放到万科酒店试点,成功后,就可以放到全国试点。所以,以后证件丢了想住酒店没有关系。第二,无卡取款,现在已经在建行的ATM机上实现了,声纹认证后,扫描一下就可以把钱取出来。


微信图片_20180124145536.jpg


未来的场景是这样的,无论是汽车停靠点还是充电装置、酒店的前台和房门、无人商店的出入口、ATM机等等很多地方都可以安装这种小的传感器,一个“麦克风+无线传输”模块。这两个加起来肯定比市场上其他手段便宜很多。任何地方,需要认证身份时就对它说话,传输到云端认证以后就可以了。原来还依赖手机,有了它之后手机都可以不用了。这是未来的一个场景,随时随地都可以做身份认证。


生物特征中,声纹的“五性”均具有高符合性,还比如安全级别可配置、应用扩展性很强等等优点。因此,建立“声纹+”多生物特征解决方案是大自然一个很好的选择,不是个人喜好。


有人可能会问,有语言表达障碍的人怎么做到语音识别呢?我想告诉各位,这个方案是“声纹+”,声纹不是唯一,有时候不想说话,也可以用别的方式,嘴巴,眼睛、耳朵都有,是全方位的。我只是说,声纹是其中最好用的。目前样本的采集训练及收集数据,是只需要念出五串数字串,念完就可以,从开始到结束整个训练的采集不到一分钟;而且,对于麦克风的规格要求也不高。


声纹从上个世纪40年代开始做,一开始的确很艰难,但是现在已经进入快速发展期。得意音通最近就明显感觉到了这一点,各个银行、社保部门等不断找过来,已经开始有点应接不暇。这也从一个侧面说明:声纹发展的历史“奇点”已经到来了


微信原文链接请戳:https://mp.weixin.qq.com/s/Oz7hEYaCfiEC5dV3V-fgwQ

地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692
友情链接:
互联网金融身份认证联盟(IFAA)

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备