经济观察报:得意音通 - “听声辨人”的践行者 2016-4
151
卫思谕
科技是推动人类前行、社会进步的重要力量。实验室里不分昼夜的反复试验,成就了人类更便捷、更美好的生活。这个栏目的开设,旨在发现中国科技最前沿的力量,展现这些静耐科研寂寞的团队以及他们正在做的事情,为这个时代的科研足迹留下真实的印记。
电影《2012》中有一个片段,一群人无论怎么弄都启动不了一辆汽车,而当车的主人说了一句“引擎,启动”之后,这辆车就发动起来了。这就是神奇的语音和声纹识别技术,也就是说,机器可以辨别主人的声音命令和的身份。除了主人外,任何人说这句话都无法打开系统。
看上去还很科幻对吗,可眼下,这个情景已经真实的出现在我们的生活中了。虽然暂时还未大量地普及在汽车上,但这种声音识别技术的发展已经日趋成熟,并且延展出了多个使用场景。特别是伴随当下移动互联网和智能手机的普及,它已经来到我们的日常生活中了。
比如,当我们拿起手机要进入银行APP,不用密码、无需指纹,只需自己读一串数字,系统就可以通过声音自动辨认你的身份,成功进入,而除你之外的任何人念相同的数字,都不能进入你的银行系统。它的原理,实际上就是根据我们每个人声音的独特性来鉴定说话人的身份。可以说,世界上每一个人的声音特征都是不同的,母子、父子、双胞胎的声音可能会很相像,但在计算机看来他们却是完全不同的。
现在,中国建设银行已经开始采用这种技术,而它的供应方,就是一家叫做“得意音通”的科技公司。
把一件事做到极致
“我们是一家专门研究声纹识别技术的公司。我们研发的技术只用来做一件事,就是对人的身份进行认证”,得意音通的创始人兼董事长郑方向记者介绍,“因为专注于做这一件事,所以我们就要把它做到极致,包括性能、功能和稳定性”。作为清华大学教授和博士生导师,郑方有着科学家一贯精益求精的态度。
由于本科、硕士、博士都在清华求学,郑方笑称自己是“三清团”,而在清华毕业留校任教之后,他陆续担任清华语音实验室、语音技术中心、语音和语言技术中心主任等,跟声音技术研究打了近三十年的交道。
2002年,得意音通在北京中关村国际孵化园成立。专业从事声纹识别、语音识别与语言理解技术的研发和商业化应用,尤其在声纹识别领域,其集技术研发、产品开发和服务提供于一身,拥有完全的自主知识产权。“与指纹识别一样,声纹识别也是生物特征识别技术的一种,但在远程身份认证中它比指纹更保险,因为指纹可以用指模来造假,但声纹特征的特殊性,使声纹造假完全没有了可能”,郑方介绍,“因为声纹是行为特征,我们一方面提取声道的特征,世界上每个人的声道特征都是不一样的,另一方面我们还验证说话的内容,每次验证说话的内容都不同,录音造假无效。”比如在生活中,我们可以模仿别人说话,模仿别人的语调和音色,从人耳的听觉上几乎可以以假乱真,但这只是表象上的相同,本质上骗不了计算机的识别系统。
得意音通研发的声纹识别技术,就是基于每个人声道的长、短、粗、细,以及每个人说话的节奏、口音、发音,还有声音所对应的喉管、声道、鼻腔的形状与尺寸等特征进行本质识别,因此就算一个人模仿他人再相像,出现在计算机上的声纹图谱也是千差万别的。
当然,人的声音也并不是没有变化的,比如因为感冒发烧引起的鼻塞、嗓子变哑,以及随着年龄的增长声音的成人化和自然老化等现象,都会引起人声音的改变,但据郑方介绍,人本身的声道构成、口音、节奏、发音还有很多身体特征都是不会改变的,因此这些表象的改变并不会影响计算机的识别。
不过,有一种情况却可能对声纹识别构成威胁,那就是在你说话的时候别人录下你的声音,然后用录音去登录你的银行账户,“所以为了防止这种情况,我们发明了一个叫做声密保的产品,这是我们公司独有的专利产品”,郑方边介绍边掏出手机向记者具体展示。“声密保”就是基于动态密码语音的身份确认系统及方法,其利用动态密码,结合语音识别和声纹识别技术,来实现用户身份的双重验证。简单来说,就是需要念出的数字每次都会改变,即使是用户自己,也要把动态码念对才可以通过身份认证。
在郑方的手机上,记者看到他第一次登录手机银行时,系统需要他念8个数字,而当他退出重新登陆时,系统给出的8个数字已经跟第一次的全然不同,这样就使录音失去了作用。另外录音在播放时,它的声音频谱已经被破坏,与直接说的声音已经不同,完全可以被系统检测出来,从而进一步阻止他人用录音拼接的方式进入自己的银行系统。
无限想象的“应用场景”
除了银行、金融系统的身份认证外,声纹识别技术还有许多其他的应用场景,比如对居民社保身份的确认。根据人社部的数据,2013年有3.5万人冒领社保1.27亿元,其中在很多人已经去世的情况下,其家属还照样领取社保。“这就是由于没有监控,无法进行身份认证所带来的问题。而解决这个问题的办法,其实也是最能集中体现我们技术价值的地方,就是远程认证”,郑方解释道,“远程就是在异地,见不到面,凭相貌或者指纹认证都行不通的时候,声音认证就是最好的方式了,只要事先用系统记录下对方的声音,然后在领取社保前让对方念一串动态密码,就能判别是不是被社保的本人在领取资金,从而解决冒领的问题”。
同时,声纹识别还可以用于考勤,“当然这个认证可能对员工来说都不会喜欢”,郑方笑着说,“但它对公司、单位来讲,是一个比指纹和打卡都方便、高效和防代考勤的系统”。
现在公司考勤中,比较常用的两种方式就是指纹和打卡,但这两种方式都可以作假和让别人代替,而且一个公司通常就几个指纹机和打卡机,人多的单位在上下班高峰的时候容易拥堵和排队,而用声纹技术打卡,就无须排队。据他介绍,员工在自己的手机上就可以点击进入考勤系统进行声纹认证,而员工身处的位置则是有限制的,利用手机的定位功能,只有在公司的区域内才可以登录这个考勤系统,这样每个人在自己的手机上就可以完成考勤,既避免了排队,提高了打考勤的效率,又防止了作假。
除此之外,在电子身份证、车联网的安全、智能手机的隐私保护、智能客服等方面,声纹认证也都有着巨大的市场空间,“而这几点还只是目前能想到的,未来随着移动互联网技术和应用的不断发展,声纹认证可以应用的范围和场景会越来越广泛,所以我们在今年3月份推出了一个‘声密保云平台’。这个云平台主要针对B端企业客户,他们既可以享受平台的存储和认证服务,又可以根据我们免费提供的开发工具进行任何场景应用的二次开发。我们不收取一分费用,全部免费。因为现在很多人还不了解声纹识别到底是什么,所以我们现在推广这个平台,就是让更多的企业了解到这个技术”,郑方表示。
在以技术为核心的创新型公司,强大的研发团队是必不可少的。由于郑方在清华任教,得意音通先天就占据了背靠清华的独特优势,其研发部门现有员工近40人,主要负责声纹识别、语音识别、智能客服等技术相关产品的研发与改进,团队中本科以上学历的工程师占89%以上,其中还有几位博士是郑方在清华的学生。2015年7月,在国内高校产学研一体化大力推广的背景下,清华大学以知识产权入股正式成为了得意音通的股东。同年10月,公司还与清华大学信息技术研究院语音和语言技术中心联合建立了“清华-得意音通声纹处理联合实验室(JLVPP)。
而除了“声密保”外,得意音通共有15项发明专利技术,在声纹识别方面,包括:声纹辨认快速算法方面的专利,主要适用于国防、公安、司法等根据语音从大规模声纹库中检索嫌疑人的应用;声纹识别的训练和识别方面的基础算法专利;基于声纹识别、人脸识别以及同步活体检测的身份认证方法,这也是声密保的加强版,该专利结合声纹识别和人脸识别技术,利用语音和唇语同步检测来确认用户真实发音,从而提高远程身份认证的可靠性,防止假冒;声密保与指纹相结合的专利,这也是声密保的加强版;防录音攻击的声纹识别专利,可以有效防止录音及录音拼接攻击;以及声纹自学习的国际专利,可以应对声纹随着年龄发生缓慢变化的情形等等。
按郑方的话说,“在推出产品前,我们前期做的准备工作就是构筑了一道厚厚的‘专利墙’”。
用科学的思维做商业
可见,无论是在民用的商业市场还是在政府单位的公务市场,声纹识别都有着相当大的用武之地。那么,该如何打入这些市场呢。技术出身的郑方没有上过一天的商学院,但他凡事爱琢磨的性格还是让他由学者、科研人员的身份向商人的身份做了成功的转型。
“许多知识理论其实都是相通的,研究技术如此,研究商业也是如此,所以我就想能不能把研究技术时对问题进行分析、拆解、推导等思路和方法论也用在商业推广上,这样我就知道每一步该做什么了”,郑方说。
事实证明,这种方法不但走得通,而且还让他找到了许多问题的关键点,比如一开始他就贴近了市场需求,并且根据实际情况不断的改进提升产品。“事实上,科研成果转化成商业产品最难的地方也就在这里,因而许多实验室里的研究成果不能有效地转化成量产的产品。往往科研成果是科研成果,商品还是那些商品,从实验室向市场化迈进的过程中出现了断裂,所以那时候我就跟我的团队说,我们从一开始就要立足于市场,要以解决实际需求的初衷来研发产品,而不能一味的沉浸在科研本身上”。
本着这样的思路,郑方找到了他在金融领域的第一个大客户,中国建设银行。2009年,得意音通的声纹识别技术安装到了建行的95533声纹身份认证系统上,在一段时间的试运营和测试后,成功的实现了客户的零投诉率,这也让郑方信心倍增,决定要把服务银行系统作为他市场化推广的第一步,集中火力把产品进行更广泛的应用。
在建行95533声纹识别服务的运营期间,公司的“声密保”技术还没有被发明出来,当时系统抓取的只是客户的声纹,而并不关注客户所讲的内容,而且需要抓取时间较长,所以那时在建行办理业务的客户往往需要讲至少十秒钟的话,而且讲话的内容全需要自己想,这就在产品的体验上产生了瑕疵,也不能有效防止录音闯入。
“所以建行当时就给我们提意见,十秒钟时间太长、很多客户都不知道说点什么好,能不能缩短抓取时间、提高产品的性能。这样,我们就持续改进,直到研发出了声密保,建行就满意了”,郑方回忆说。
眼下,让郑方高兴的好消息是:今年5月,建行将在普通客户中全面地开始应用声纹识别服务;而现阶段,他的团队也正在与中国银联洽谈合作打造一个开放平台,届时所有的银行系统都可以在这个平台上使用这个技术,那也就意味着公司在银行、金融系统的推广取得了巨大进展。
可以说,经过了七年的努力和改进之后,市场告诉作为商人的郑方,第一步路走对了。
希望公司做有意义的事
而接下来的第二步,就是如何构筑强有力的商业模式。
通过与建行的合作,得意音通进入民用市场已经有了良好的基础,接下来,郑方的思路是,继续深耕民用市场,为进入政府公务市场做准备,“我们的政府客户涉及国防、公安、司法等机构,市场空间非常广阔,但公务市场这块的进入会比较慢,因为它要受到很多法律规则的限制,所以眼下我们在民用市场这块集中发力,为将来切入公务市场做技术储备”。
而“声密保云平台”,就是他实现核心目标的重要步骤。
“我们的云平台现在都是免费面向客户的,以促使更多的客户了解、熟悉和掌握声纹认证系统的使用。这样做的好处是:一方面可以帮助我们扩大宣传;另一方面,我们将来可以和这些客户谈合作,实现多种形式的双赢的盈利方式”。
谈到这,郑方信心满满,而他自信的源泉,则来自于得意音通在行业内拿的多个第一。2013年,在由工信部主办的“中国语音产业年会”上,其“声密保”语音支付产品荣获了“2013年中国语音创新产品奖”;2014年,再次凭借“声密保”荣获了CTI论坛颁发的“2014年度编辑推荐奖”。
而郑方本人,则是CCC(国际中文语言资源联盟)理事长、中国中文信息学会语音信息专业委员会主任委员,NCMMSC(全国人机语音通讯学术会议)常设机构委员会主席等,并先后参与负责起草了工信部的《自动声纹识别(说话人识别)技术规范》、公安部的《安防生物特征识别应用术语》和《安防声纹确认应用算法技术要求和测试方法》等行业标准,可以说,是一个绝对的业内大咖。
在去年8月北京汽车集团产业投资有限公司完成对得意音通的A+轮融资后,郑方眼下并不急于吸纳新的融资,他的目标,是先把产品做精、把服务和推广做好,争取在今年内与更多的金融机构和社保单位等领域达成合作,完成他在民用市场的初步布局。
最后,当记者问他对未来公司发展的构想时,他笑言自己还没有想那么长远,只是尽力把当下该做的事情做好,如果有愿望,就是希望公司的产品是对社会是有用、有价值的,“做公司不只是为了赚钱,我们一路走下来,艰难的事情也很多,最终坚持到了现在,就是希望我们的产品能够为大众提供安全、方便、可靠的身份认证服务,未来公司董事长是不是我都不重要,但我们寻找的,一定是跟我们志同道合、有社会责任感的合作伙伴,不然我肯定不能把公司交出去撒手不管。”
说到这,褪去商人的身份,郑方大学教授、科学家的性格基因又跳脱出来了……