新闻中心

圆桌实录 | 5家精英企业共话中国声纹产业生态

2019-05-31

    

4月22日下午,由中国计算机学会(CCF)与得意音通信息技术研究院联合主办的“声纹识别产业发展与创新研讨会”在清华举行。来自高校和科研单位、产业界相关企业、政府部门、金融机构、媒体和投资机构的朋友等计150余人参加了此次研讨会。在圆桌对话环节,5家精英企业首次相聚,共同聊了聊声纹识别产业的现状与未来。


实录整理如下:


圆桌对话:产业与生态


圆桌嘉宾:

得意音通创始人——郑   方

厦门天聪创始人——洪青阳

声智科技创始人——陈孝良

出门问问  CTO ——雷   欣

中科信利声纹负责人——周若华


主持人:新华社瞭望智库金融研究中心主任——聂   欧


微信图片_20190426132145.jpg

左-右:聂欧、雷欣、陈孝良、洪青阳、郑方、周若华



议题一:这个产业为什么需要硬核技术派?


主持人非常有幸和大家坐在一起来讨论有关未来声纹产业的发展问题。我事前做了一些简单的功课,可能并不是非常专业,想今天抛出来,大家谈谈自己的看法。


我给五位嘉宾做背景调查的时候发现一个比较有特点的问题,一是几位嘉宾基本上都是技术出身,第二有国际背景,第三横跨产学研,这与纯互联网公司创始人背景相比有些差别,这是咱们产业的一个特点吗?如果说这样的技术基因对于我们来说是必需的,那么别的公司想对技术进行拿来主义的话,是不是行得通?

 

郑  方有两个方面。第一、容易长寿(笑),声纹要解决的问题太多了,不做几十年是解决不完的。我做声纹的时间跟颜永红差不多,有30年了。我们既在研究领域又在产业领域,这样更容易把时间拉长,所以长寿。第二个在产业里边遇到的一些比较难的问题,通过产学研这个渠道非常容易找到一些理论上的突破,理论上的一些成果可以快速转化成产业。产学研集中到一体的形式效率更高,而且在整个市场里边生命力会更强、竞争力也会更强。


洪青阳就产业来讲,声纹识别是比较小众的市场,本身应用规模很小,很难支撑起一个企业的发展。我们一开始是先从语音开始,先做内容的识别,后来有一些客户开始有兴趣,比如说在监狱系统希望区分犯人家属的声音,还有监听电话系统,犯人的家属是不是真的本人的家属,需要一个远程认证,这没办法用人脸、指纹,所以想到尝试用声音,当时我们便做了一套系统。声纹真正能够落在实处需要足够的技术支援。我们的应用还有很多用户体验、用户配合度的问题,虽然门槛越来越低,但是很多细节还是要去打磨的,这就是我们技术派的优势所在,我们有长年累月经验的积累,我们有用户的反馈。


陈孝良现在很多公司、很多团队都有技术背景,不仅只是声纹语音这个行业,这应该是整个世界的趋势。比如说是声音产业很难做,解决很多技术或者产业问题需要更精英化的人才,特别是国内。大家最近应该读过技术改变命运的一篇文章,我们国内确实需要通过技术的创新带动很多行业,一些比较危机的全球竞争的企业需要自我颠覆、自我迭代的革命,技术事实上更加重要。另外,这和当前很多新出来的公司结构有很大的关联,在移动互联网时代,我们更倾向于写写代码或者模式创新,这样可以快速获得商业回报。但现在的AI企业就是要招聘很多高学历的员工,比如现在很多技术型公司博士比例会很高。结构变化后很多公司就要带有研发性质,否则这种人才红利很难享受。如果创始团队没有技术背景,甚至团队会议都会很难召开。这个时候就需要一定技术背景的团队才能带领公司正常运转起来。如果纯是业务驱动或者销售驱动,可能会造成公司研发团队极大的不稳定。


主持人:可以这么说,我们现在是互联网时代,未来是人工智能时代,不同时代对技术公司要求、人员素质、人员配比的要求都是不一样的,是不是未来对技术人员水平包括院校背景、综合背景的要求会比早期时代更高,可以这么总结吗?


陈孝良:是的,特别是人工智能时代是处在萌芽阶段,很多技术在爬坡,还没有到完全不靠技术的时代。


雷  欣互联⼈⼯智能这两个产业是有差别的。互联产业家更多注重怎么做好产品、做好户体验、迅速地把它规模化,这是这个产业的特点。⼈⼯智能产业不样,更多依赖于技术、才、数据等⽅⾯的推动。技术是逐步进化的,只是在某些时间点才会有个突变。如在2012年、2013年深度学习开始颠覆了语识别的技术,带来了突破性的提升,使得语相关的技术在很多产业落地、能够商化。家看到最近五到年语产业开始慢慢形成,并且开始进⼊⼀速的发展阶段。

 

议题二:声纹元年之后,如何看待泡沫化?


主持人:刚才谈到规模化扩张,现在人工智能某些领域是不是已经出现了一定的泡沫化或者大跃进?各位怎么看?


雷  欣确实有一定的泡沫,但所有先进事物都是先有泡沫然后再回调然后再曲线上升,这是正常的过程。特别是对我们的从业者来说定的泡沫对才、商业化都会有定的帮助,但我们⾃⼰还是要有个清楚的认识,有些东西能够落地、有些东西只是浮于表。相对视觉来说语技术更为成熟。声纹这块还是有很多可落地的场景,语识别在特定场景下也还有更多可做的⽅⾯


陈孝良人工智能泡沫化或许有一些,但是因为人工智能行业太大了,声光电热力磁都属于人工智能的分支。各位老师都谈到产业化,我们这些企业压力更大。普遍来说视觉企业估值比我们语音企业高五六倍。我觉得我们不太存在泡沫化的问题。我们要推动一个行业技术的进步或者产业的发展是需要大量资本输入的,在这一块我们还需要加强努力。至少像视觉这类的公司看齐。


另外分享一下,我在以色列察觉到,以色列随便一个创业公司描绘的商业前景都有十万亿。我觉得我们声纹语音的行业还是很保守,拿的钱太少,出来的企业太少,盈利太少,从业人员太少。我特别希望吸引更多的人加入这个行业里边,这是需要人才基数的,基数大了可能会有一些泡沫,但是现在基数太少了,声学语音学术机构的会员加起来可能比不过视觉学会一个分支机构的人才多。  

 

主持人:所以郑方老师说2018年是声纹元年。声纹识别作为人工智能新的赛道,元年都开始了,资本进来应该是迟早的事。请其他几位专家从行业产业发展战略角度谈一下,如何防止未来可能产生的泡沫化?  


洪青阳声纹识别(一夜之间)冒出很多家,这需要引起我们对未来的担忧。多人关注这是好事,但是这也带来问题,舆论宣传会产生误导。一个是对客户的误导,让客户期望值过高。(有的公司)宣传起来说达到99%准确率,在认证和安全领域让客户觉得跟人脸识别是一模一样的,但是用起来不是那么一回事,导致前期投入损失。我们也不希望看到这样的结果,导致客户对声纹识别很反感。


郑 方声纹现在火了之后,我们应该要更多地从问题出发,从市场的需求出发,去解决它的实际问题。不能泛泛讲声纹,就像人工智能不能泛泛讲人工智能一样。人工智能发展是参差不齐的,有的领域可能成熟了,有的领域还差得很远。不能一概而论。


声纹也有同样的问题,我觉得这体现了研发人员对市场的尊重。有句话叫“德不配位”,如果我们对市场不尊重,把不好的产品放到市场上,结果用户使用一段时间感觉体验不好、达不到要求,他们就会说你这个产品不行,最后反过来影响自己。最好的办法是有序推进声纹识别产业化,成熟的好好做好,不成熟的继续在实验室做。


吻合市场要求的才叫成熟,不是识别率做到多高就成熟了。识别率95%和99%哪个成熟?可能都成熟也可能都不成熟,判断的标准是必须解决实际问题。


周若华在国内,我觉得作为科研人员来讲,最重要的一点可能要给自己挖一个壕沟。你必须有一些家伙,你做的东西比他好,必须有一些东西他做不了,否则到最后你没饭吃。


声纹确实非常难。语音这个东西是有目的性的,要交流、要传达一些东西必须讲一些话,但是人的身份信息是附带的东西,不是人一定要表达我这个身份。所以新加入的企业,确实要好好考虑一下,声纹识别不好干。没有多年的经验,没有你自己独特的东西你想干好可能比较难。


包括声纹识别安全,要求越来越高。过去几千个人里找一个人还可以。到了一万,然后到十万,现在是一百万、一千万。计算机越来越便宜,包括外面大市场也一样,做语音客服都有类似的问题,规模越来越大,所以要求越来越多。你要在一百万人中把这个人找到和一千个人当中找到这个人,这个难度是高很多倍的。对技术人员的要求也是越来越高的。   

  

主持人:所以说现在市场还没有进入这个领域的先好好想想,是不是具备技术和人才优势。如果不具备最好三思而后行。


周若华:是的,最好是结合。每个企业搞几个研发人员确实浪费,应该把搞这方面的人才充分利用起来,加强大学研究所和企业的合作。这个行业跟很多人工智能行业差不多,不在于人多,在于干过的人有经验,有特殊的特长。关键在这儿。


议题三:声纹支付的想象空间?


主持人:我是从事金融研究的,最近了解到两个现象,一是去年人行标准颁布后声纹在金融圈火了,二是不少科技公司从C端转向B端进军金融领域。咱们这几家企业里既有做C端的,也有做B端的,大家认为声纹在金融领域的应用究竟有多大想象空间?


雷  欣你刚才提到C端行业做B端的公司只有我们一家,因为语音和人脸相关公司都是做B端为主的,我们最开始是做C端产品最近两年才开始转型,探索B端的机会。我认为这是整个行业的趋势,甚至包括腾讯典型的C端用户公司也开始大力发展B端的业务,所以我认为C端和B端并不是矛盾的。


个问题,在做B端业务过程中确实发现声纹有很多需求,我们和郑⽅⽼师团队也有合作。如说我们为银业和保险业提供解决案的时候我们也会加声纹的技术。      


洪青阳我的看法是生物特征在金融领域的应用要采取多模态融合的形式、单一的识别方式B端可能不会采用。每一种生物特征都有它的缺陷,比如说人脸在暗的环境认证通不过,而声纹在噪音环境下过不了。应该形成一种互补的关系,对这种B端的趋势是多生物特征来认证,其中声纹是必不可少的。

 

主持人:对于声纹支付这件事情您怎么看?


洪青阳支付C端有一些企业来尝试了,在小额支付是有可能的。在便利店刷脸我不敢刷,因为我的人脸会被保存。声纹涉及到的隐私问题不严重,动态口令即使被窃取了但是在别的领域也无法使用。所以相对人脸来讲它的风险不那么大。


主持人:是不是可以这么说,以后声纹支付比其他支付方式相对来说更普惠、更接地气?


洪青阳:这要看场景,比如说开车的时候按键盘不合适。比如说有些的采集设备不方便,手机有麦克风可以直接用声纹,这要看具体的应用的场景。总体来讲,要给用户便利,用户觉得在很嘈杂环境下喊一下,哪怕是文本相关的,经常过不了,就会不想再用了。但是短语音的,我觉得要真正能够普及开必须是高频的应用。银行的声纹支付如果经常用就是合适的,高频率至少每周用一次,隔一个月再用可能就支付不了,过不了就不会想用,会变成恶性循环。一周的时间是最合适的。


郑 方我比较同意洪老师的观点,未来肯定是多模态的,但在多模态里边声纹可能会占主导。因为声音是人交流最自然的方式,也是人机交流最自然的方式。话说回来,刚才讲到人脸。人脸识别现在它的问题在哪儿?人脸识别催生得很快,快到什么程度?你下载一些开源的软件,可能给博士生一礼拜就可以做一个系统,而且还不错。一些人脸识别厂家就发现,他们的竞争对手八万块钱可以提供一套人脸识别系统。

 

主持人:现在已经免费了。


郑  方那个东西严格讲不应该叫人脸识别产品,叫人脸识别演示。如果从产品定义来讲,要做认证就必须要考虑好你是不是防攻击,是不是取得用户的明示同意(隐私问题)。如果这些东西不解决,你只能是一个演示。这个话我在几年前就说过,人脸识别会遇到一个非常艰难的时刻,其实现在已经发现,隐私的问题没有解决好,防攻击的问题也没有解决好。现在欧美又出了一些政策对它严加限制,这让人脸识别公司非常难受。


刚才还讲到B端还是C端。做B端非常累。C端非常容易拿到融资,B端非常难拿。但声纹比较合适做B端。十年前讲声纹没有人认可,为什么?声纹稳不稳定?我感冒了咳嗽了行不行?一堆这样的问题出来了。但是C端如果对每个人都这么教育教育不过来,很难让大家很快接受;只有找到B端安全风控的部门,他们有专业判断能力和水平,他们认为行可以用了,这个时候才会推广比较快。资本对这个问题的认知却不是这么想的,所以可能会限制它的发展。我们走到今天,坚持走B端这条路是对的,如果做C端,在开始阶段没有考虑好一些问题,可能会遇到人脸识别一样的境遇。反而稳扎稳打才能把所有问题都解决好。

 

主持人:风险在B端,金融机构还是可以去解决的。如果风险落到C端可能着急的就不仅是您了。


周若华声纹确实是已经吸取了人脸识别的教训。虽然声纹还没有真正大规模应用,但是郑老师很早就做了,关于防攻击这些问题,有些已经提前解决了。我相信在金融领域,声纹小额支付将来应该会成为基本的方式。


郑 方我补充一下,不只是小额支付,在大额支付上,银行用了声纹识别之后把每天支付的额度提高十倍,因为安全的等级提高了。

 

主持人:现在银行最高额度多少?


郑 方可以50万一天,没有这个之前是5万。

 

议题四:政策如何助力产业?


主持人:今天所有嘉宾在演讲过程中,都提到几点非常重要的问题就是安全、隐私、保护,这几点只依靠企业的力量是不够的,更多是需要行业的力量、需要监管层的力量,需要中央的顶层设计,请各位对此提一个建议。


周若华这方面还是需要国家层面制定更多成体系的标准,来规范大家的行为。


郑  方应该尽快立法,规范技术的研发、规范产业的应用。中央网信办正在做一个关于网上可信身份认证的国家行动纲要,这个已经提出立法的时间表。我觉得这个必须有,没有立法我们大家都害怕个人隐私丢失,反过来对研发和应用造成不利。


洪青阳声纹库的建设迫在眉睫,从国家层面包括公安部、网信办,用政府的公信力建立声纹库,就有点像人脸识别,在二代身份证上就有,如果有声纹库而且是标准化的应用,在声纹库上面我们就可以有更多的载体,应用起来更放心、更可靠。


陈孝良我比较中性,监管肯定要,但要防止扩大化,既要管也不要管。否则的话整个产业可能出现很大的问题。这一块其实我们可以参照一下美国信息行业,管和放要有一个度,也要一定的节奏,太早了不好,太晚了可能也不太好。隐私的问题非常容易放大,一旦扩大化对整个产业都会产生比较大的影响。怎么去管真的是比较考量整个管理水平的。谢谢。


雷 欣我同意师的观点,常期待国家能够推出相关的隐私保护法律法规,我们作为相关的企业肯定会严格遵守法规和标准,另⼀⽅⾯从技术⼿段上我们可以减少隐私的泄露。现在越来越多技术可以在设备端不需要联,我们也可以从技术层更好地做好户的隐私保护。

 

主持人:谢谢,总结来说,标准、法律再加上声纹数据库以及行业企业的自律和监管,要有管有放、有张有弛,这样才能形成长效机制。今天的圆桌环节就到这里,谢谢大家。


(本文由得意音通根据速记整理,经嘉宾审阅授权。)


地址:北京市海淀区双清路77号院4号楼9层
邮编:100084
电话:+86-10-8289-3532
传真:+86-10-8289-6692

版权所有@北京得意音通技术有限责任公司 2002-2017. 京ICP备 05032314号 京公网安备