AI名人堂 | 郑方博士谈声纹识别的技术与商业逻辑 2018-7

 

 

栏目简介:激荡六十年,人工智能已经起航。然而在未来面前,我们都还是孩子。究竟是“奇点临近”?还是泡沫行将破灭?为了解惑,《AI名人堂》将汇聚领航者智慧,和你一起探索前行的方向。

 

记者 | 杨丽

出品 | AI科技大本营

 

想必不少人都用过微信声音锁。2015 年上半年,微信手机客户端悄悄上线这一功能时,曾吸引不少用户尝试,进而开始关注到“声纹识别”这一领域。“依靠声音波形特性,跟口音无关,跟语言无关”,便可轻松进行身份认证,这对当时疲于频繁手动输入密码的用户无疑戳中了痛点。

 

而另一个事实却是,与人脸、虹膜、指纹等生物识别技术相比,声纹识别技术尚未达到一个比较高的市场占有率。据美国智库Acuity Market Intelligence 发布的《The Future of Biometrics》报告显示,2015 年全球生物识别市场结构中,指纹识别份额达到58%,人脸识别为18%,虹膜识别为7%,声纹识别仅为5%。

 

据AI科技大本营观察发现,在微信声音锁上线后的三年时间里,曾有不少用户吐槽声音锁“交互不够自然、流畅”、“安全性有待提高”、“识别正确率不高”、“鸡肋”……

 

本来,以声音登陆账户解锁,只是一个开始,未来会有更大的想象空间。但市场的遇冷却反映出绝大多数用户对声纹识别这项技术的不信任甚至不了解:声纹识别准确性究竟有多高?声纹解锁真得具备身份认证的安全性吗?真正的声纹识别技术可以达到怎样的水平?这都值得我们探讨。

 

近日,清华大学语音和语言技术中心主任、得意音通董事长郑方博士接受AI科技大本营采访时表示:“目前在声纹识别这个领域,不同技术或产品提供商参差不齐、差异很大;与此同时,声纹识别不再是单一强调准确性,而是变得更为成熟、完备和可用。”

 

在他看来,“微信声音锁很早就对这个市场进行了教育让大家认识到这项技术,但同时又拉低了这个行业可以达到的一个技术水平。”

 

要知道,在国内,越来越多的消费级用户开始对一款产品的性能保持零容忍。产品安全性、行业成熟度、用户认知度均成为影响声纹识别技术能否在未来扳回一局的关键。

 

 

为何声纹识别是身份认证的最佳解决方案?

 

实际上,在当前生物识别技术发展的过程中,像人脸识别、指纹识别多少会存在被信息被盗用的可能性。利用他人照片、视频便可轻易打开人脸识别锁,用指模便可复制他人指纹,甚至此前有报道称“黑客利用照片+隐形眼镜成功骗过了三星的虹膜识别技术”。

 

一旦用户的生理特征信息在采集和传输的过程中丢失,就很有可能被人通过非法途径使用,从而影响到用户的隐私安全。

 

因此,郑方强调,在无监督环境下,声纹识别技术的优势就体现出来了,其中,“一种是物理空间无人监督的情形,还有一种是网络空间无法监督的情形。”

 

声纹识别(Voiceprint Recognition),也称说话人识别(Speaker Recognition),即通过声音判断说话人身份的技术。由于任何两个人的声纹图谱都有所差异,所以声纹同样具有如指纹生物特征一样的唯一性。“我们将声纹埋伏在你的语音里面,无论说你每次说的内容是否相同,声纹本身均不受影响。”

 

此外,声音不涉及隐私问题,麦克风和传感器等相关设备成本低廉,传输带宽窄,而语音又是一个形简意丰的信号,口音、语种、情感等各种信息通过一段声音便便传输了出来,这又为声纹识别可广泛推广铺垫了基础。

 

其实,从识别准确性上看,声纹识别是继虹膜识别之后排名第二的生物特征识别技术。一般会涉及声纹特征提取和模式识别两个环节,“我们采用的模型会对特征的分布进行描述,由通用背景和高斯混合模型(GMM-UBM)的共同作用,对说话人进行刻画,最后进行身份认证。”除了不断完善GMM-UBM之外,得意音通改进了使用i-vector、d-vector建模的技术性能,并采取了DNN模型以加强特征学习。

 

 

有时安全与体验不可兼得

 

通常,一个声纹识别系统有两个重要参数,错误拒绝率 (FRR) 和错误接受率 (FAR),理论上,这两个参数无法同时达到最小或者最大,需要调整设定的阈值来满足不同应用场景的需求。这种取舍下,声纹识别将很难既保证用户体验,又同时保证安全。这也是任何一种生物特征识别的共性。

 

郑方表示:“同一个系统永远做不到。我们通常会讲一个错误权衡曲线,在那个曲线上,FRR 越低,体验越好;FAR 越低,安全系数越高。一般来说,要同时保障安全和用户体验,我们会采用多种不同的方式,多种防伪、防攻击手段并用,多种技术方法并用,将每个系统的优势充分利用起来。当然,在安全系数提高的同时,效率总会下降、成本总会上升。”

 

基于声纹识别和语音识别,得意音通推出了“声密保”服务,通过对动态密码语音中的密码内容及请求人身份的双重识别,以实现对操作人身份合法性的双重验证。

 

从基本架构上看,声密保通过语音识别和声纹识别提供了一个永不重复的密码。语音识别用于判断用户读出的数字是否正确,而声纹识别主要判断读出这段数字的是否用户本人。

 

不过,还有些情况下,大家也会担心:别人也可以盗用我的录音进行声纹识别,这该怎么办?万一哪天我生病了,声音改变识别不了怎么办?郑方强调,声密保还在防录音、防时变、及真实意图检测方面进行了更深层次的安全防护:

 

首先是防攻击, 即应具有防假冒和假体攻击的能力。

 

其次是真实意图检测,即认证能体现被认证者的真实意图,在用户知情且愿意的情况下。

 

三是防时变,即降低人的声纹随时间变化对认证行为准确性的影响。这方面,郑方团队在两个层面进行了技术提升:一是建立了一个全球唯一的多人多年相同文本的声纹数据库以研究不变声纹特征的提取,二是增加了声纹自学习功能。

 

此外,在框架方面,声密保采取了一套存储及系统响应时间均可配置、可伸缩、可动态调整的架构。

 

 

用户总不愿为SaaS买单

 

需要承认的是,以声密保为代表的声纹识别虽然技术含量高,但消费者目前尚未对其形成高认知度。以目前指纹、人脸识别应用比较多的手机身份认证场景为例,很少能在公共场合下看到人对着机器大声说话交流。

 

“这其实还是在于市场的认知过程。很多人一开始都会觉得声音不可靠,甚至会觉得声音说起来怪怪的。比如从手机解锁的场景上看,声音能体现用户的真实意图,技术上具有其他方案不可比拟的优势,但在开会等特定场合确实还不是特别的方便,这就需要进一步研究和提升用户体验。”但郑方同时也指出,从之前的合作中会发现,“某些手机厂商对做这个事情的态度很随机,并不完全看市场需求。”

 

另一方面,在声纹识别市场,企业用户对SaaS收费模式的认知仍存在偏见。

 

郑方表示,自上线SaaS服务以来颇受用户认可,根据企业需求和自身IT技术水平,将SDK、API、客户端开发源代码等三种不同的形式提供服务。

 

但实际上,“目前绝大部分客户开发能力不够,他专注的行业可能很强,但是在声纹领域技术能力就很薄弱,往往会在API调用细节上出现问题。”所以,在技术服务方面,团队需要进行包括前期准备、搭系统、调参数等技术方面的支持。

 

而在业务合作方面,跟客户沟通时,郑方团队发现,企业用户对收费模式的认识有所偏差,“客户往往认为国内的产品不行”,不愿意付费甚至希望免费。

 

据了解,声密保这项技术已广泛应用于银行、证券、保险、电子政务、通讯、智能汽车等涉及安全认证的诸多领域。以智能汽车声纹识别系统为例,从前端传感器数据采集,到中间算法处理,再到后端车辆控制环节,以及最后的开关部分,均嵌入了声纹识别技术。

 

郑方还指出,在重视安全性的同时,他们发现企业用户开始提出新的需求,如低(耳)语识别、鸡尾酒会说话人分离、远场语音采集等。

 

 

潮水褪去才可知谁在裸泳

 

除了得意音通之外,科大讯飞、思必驰、云知声、捷通华声、搜狗等诸多企业团队也在暗暗储备在声纹识别方面的技术实力。

 

郑方表示,有时,市场会给人误导,故意将某一优势宣传扩大为整体优势。

 

在他看来,语音细分很大,包括语音识别、声纹识别、语音合成,以及兴起的语种识别、情感识别等。相比之下,科大讯飞、思必驰、云知声、捷通华声在语音合成、语音识别等领域,无论是技术积累、语音数据的搜集、商业化能力做得还是不错的。

 

但在声纹识别方面,“可能就没有那么多比较优秀的企业了”。在他看来,声纹识别不仅要考虑到准确率因素,在防伪、防时变、防录音检测、真实意图检测、稳定性、并发性上同样也需要夯实。“语音产业虽然可以由概念触发,但最终仍由技术驱动,打磨好技术和产品仍是第一要务。”

 

谈及以微信为代表的互联网巨头推出的声纹识别技术,郑方半开玩笑道:“之前我们还给微信声音锁团队的负责人特意写过技术报告,(声音锁)在安全和用户体验上做的都不够好……”隐约中可以察觉到,腾讯的业务逻辑很大程度上决定了其不会在语音尤其是声纹探索方面给予很高的优先级,这也就给了其他人一定的生存空间。

 

目前声密保已处理了 2 亿多次声纹交易,无一次差错和风险,加之声纹识别的技术壁垒相对较高,目前国内越来越重视专利的保护,在包括内核、外围技术、应用等方面的专利,他们均已有深入积累。

 

 

这是一支什么样的团队?

 

据了解,郑方带领团队已经取得了诸多研究成果:从架构上来说,主要包括“一句话解决所有问题架构”,以及“3+2+2 ‘声纹+’安全架构”。

 

“一句话解决所有问题”,即把语音所涵盖的技术集成综合起来,做内容、身份,甚至情感上的识别,如一句话转账、一句话购票。“单一的技术和功能都会存在各种各样的缺陷,未来需要的一定是一种可以综合利用声纹场景和语音场景的命令。”

 

“3+2+2‘声纹+’安全架构”,其中,3 表示三生物特征识别的融合,包括声纹识别、唇纹识别、人脸识别;2 是活体检测,就是将声音的内容(包括语音识别、唇语识别)结合起来,并对比内容和时序的综合一致性;还有一个2 是真实意图检测,包括语音情感识别和人脸表情识别。

 

当然,除了带领团队研究之外,郑方同时还是清华大学的一名教授。“在得意音通,我更多起到的是桥梁的作用,不做具体的业务治理。”郑方提到。一方面,清华是得意音通的股东,是利益的共同体;另一方面,得意音通也反过来投资清华成立了联合实验室,支持清华大学的学科建设。2017年7月,得意音通技术研究院的成立更加深了双方在科研落地上的互通。

 

 “中国现阶段一定需要一种新的产学研模式,这种模式一定是‘化合态’的,既彼此融汇贯通,又分别拥有自己独立的落地组织和实施个性。”从2002年一路走来,郑方不无感叹。

 

文章转自CSDN公众号“AI科技大本营”

 

 

聆听美好世界 创造人性科技

 

 

首页    媒体报道    2018    AI名人堂 | 郑方博士谈声纹识别的技术与商业逻辑 2018-7
收藏
创建时间:2021-11-24 16:09