亿欧网:声纹识别产业研讨会:真实身份+真实意图,或成产业发展新方向 2019-4
[亿欧导读]
4月22日,声纹识别产业发展与创新研讨会于清华大学成功举行。本次研讨会由中国计算机协会(CCF)语音对话与听觉专业组、得意音通信息技术研究院主办,清华大学人工智能研究院听觉智能研究中心协办。
题图来自“u539fu521bu56feu7247”
4月22日,声纹识别产业发展与创新研讨会于清华大学成功举行。本次研讨会由中国计算机协会(CCF)语音对话与听觉专业组、得意音通信息技术研究院主办,清华大学人工智能研究院听觉智能研究中心协办。亿欧作为特邀媒体参加了本次会议。
会上,CCF常务理事、语音对话与听觉专业组副组长、中科院模式识别国家重点实验室副主任陶建华进行了CCF致辞。中科院语言声学与内容理解重点实验室主任、中科信利创始人颜永红,中国互联网金融协会业务三部副主任陈则栋,陆军工程大学副教授孙蒙,清华大学-得意音通声纹处理联合实验室副主任、清华大学副教授徐明星,CCF语音对话与听觉专业组组长、清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人郑方分别进行了相关主题演讲。
声纹识别为何得到如此高的认可?
2018年5月,国家互联网信息办公室发布了《数字中国建设发展报告(2017年)》,其中特别提到现在信息资源共享开放面临着线上身份认证的瓶颈。
徐明星表示,在线身份识别除了存在管理上的问题外,还会有用户被不法分子胁迫或在不知情时“被动”进行身份验证的情况。他认为,“真实身份+真实意图”将是一种很好的解决方案,即除了确定用户的真实身份外,还需要通过情感计算(如恐惧检测)来确定用户是否受到胁迫。真实身份加上真实意图的验证,将有效防范来自暗里、明里的攻击。
在应用方面,语音可以和其他模态实现浑然一体的多模态融合。2015年初,为了顺应国际国内移动金融发展趋势,中国人民银行印发了《关于推动移动金融技术创新健康发展的指导意见》。徐明星表示,在中国人民银行发布的标准中提到认证的手段必须是多种形式、多通道,而声音在说话的同时就能进行表情等图像验证,这也是语音在实现方面的特别优势。
在隐私安全方面,徐明星认为,意图辨认与声纹结合将是一个更加安全、更加智能的一种认证系统。在声纹识别的认证层面,认证包含三个阶段:先录音,然后进行计算机比对,最后将结果呈现。结果呈现本身就是用户想要的,不存在隐私问题。而中间声纹比对的计算过程,由于它的数据不可解释,超越了人类记忆理解的能力范围,相当于这一过程的信息和数据是天知、地知、计算机知。因此在比对中也和隐私无太大关联。而输入的语音,这里分成三种类型的信息:有声学环境、传输通道、用户语音。很显然,环境如何,话筒怎么样与隐私的相关性不强。传输通道和用户语音跟个体的隐私也没什么关系。其中,用户的语音内容是验证中需要的内容,亦不太会涉及隐私。
陈则栋在演讲中讲到,声纹有唯一性和独一性,并且声音一般不涉及用户的隐私,相对来说不会那么敏感,更容易采集到,也更容易达到国家网络安全法以及信息安全技术、个人信息安全规范等要求。声纹识别作为一种基于动态行为的身份认证方式,可以结合动态声纹密码实现双向交互。相对于指纹识别等生物技术,声纹识别在个人隐私保护、安全度具有优势。
基于此,近年来,声纹识别技术在金融领域的应用得到了相关监管部门的鼓励。2015年、2016年相继出台了关于改进个人账户服务、加强账户管理的通知,以及关于落实个人银行帐户的通知,明确指出开立个人账户的可以将探索声纹识别作为辅助手段。为了引导声纹识别技术应用规范发展,2018年10月,中国人民银行正式颁布了《移动金融基于声纹识别的安全应用技术规范》金融行业标准,这是第一个声纹识别的标准,也是我国首个生物特征识别安全应用技术标准。这在一定程度上反应了声纹识别已得到相对较高的认可。
鲁棒性要求与行业标准成障碍
陈则栋表示,与传统的方式不相同,声纹是无法撤销、无法更改的,随着声纹信息的采集和使用,个人生物特征信息被泄露的风险不断加大,如何保护好生物特征信息是非常重要的问题。单纯就声纹识别技术而言,声纹识别面临环境相关、应用相关等各种鲁棒性问题。成熟的技术可以用,不成熟的技术还需要研究,这是需要客观看待的。
声纹识别研究面临着鲁棒性要求的挑战,分别是环境相关的鲁棒性,说话人相关的鲁棒性和应用相关的鲁棒性。对此,郑方谈论了一系列相对具体的问题,如在声纹辨认场景下必须要解决跨信道问题。此问题该如何解决,目前有很多设想。比如可以通过参考说话人的方式训练一组从一个信道到另一个信道影射关系。把影射关系找到之后,在一个信道下即便没有数据也可以学过来。这在理论上能达到很好的效果。但理想很丰满,现实很骨感。在实际中,还有很长的距离要走。此外,多人说话,即对文本无关性的确认;说话人相关鲁棒性中的时变;防假冒闯入等都是目前声纹识别产业化过程中遇到的一些问题。
在谈及行业应用方面,陈则栋表示虽然声纹识别技术在金融领域具备了一定的基础,但由于没有一个系统的行业性标准,整个声纹识别还是不具备规模效应,还在探索和发展过程当中。这也是声纹识别落地其他行业无法回避的问题。
声纹识别产业化不仅需要攻克技术难关,行业规范及相关法律法规也需要及时到位。
声纹识别不是争相追逐的风口,解决实际问题才是关键
近年来,各方对声纹识别的关注与重视逐渐增加,声纹识别已呈现出火热之势。尤其是中国人民银行颁布了《移动金融基于声纹识别的安全应用技术规范》之后,声纹大热,包括基于声纹识别的各种应用都将快速发展。陈则栋认为,这种情况下要保持客观冷静,不能盲目夸大声纹的作用,也不能裹足不前。要加强技术研究分析、稳妥有序地开展声纹识别技术在金融领域的研究和应用。
郑方在圆桌对话中也表示,声纹识别发展到今天,应该引起我们做研发或者产业化人非常重要的一个思考。声纹识别现在火了之后,我们应该要更多地从问题出发,从市场的需求出发来解决实际问题。不能泛泛讲声纹,就像人工智能不能泛泛讲人工智能一样。现在存在的问题是,人工智能一热,所有人都往这个筐里靠。但人工智能发展是参差不齐的,有的领域可能成熟了,有的领域还差得很远。不能一概而论,声纹是同样的问题。最好的办法是有序推进声纹识别产业化,成熟的好好做,不成熟的继续在实验室做。当然,一定是市场要求吻合了那才叫成熟,不是识别率做到就成熟了。识别率95%和99%哪个成熟?可能都成熟可能都不成熟,必须解决实际问题。