羊城晚报:借助声纹识别,智能语音有望在垂直行业广泛应用 2017-8

羊城晚报:借助声纹识别,智能语音有望在垂直行业广泛应用

2017-08-28

微信图片_20170918160602.jpg

只要开口说一句话,就能提取出身份、内容、性别、语种、口音、情感等信息。这是北京得意音通技术有限责任公司董事长郑方博士所描述的智能语言产业真正爆发后的场景。

在郑方看来,智能语音有望在更多垂直行业得到应用,并推动这些垂直行业加快向智能化方向发展。

语音将成为下一代主流人机交互方式

记者:智能语音识别目前应用于哪些领域?发展到什么样的阶段?

郑方:首先需要更正一下,用“智能语音技术”比“智能语音识别”更准确一些,它包括针对文本“语-文”和“文-语”转换的语音识别与合成、针对说话人身份的声纹识别,以及针对说话内容的自然语言处理等。智能语音技术应用的场景很多,比如金融(如移动支付)、安防(如声纹门禁和考勤)、消费电子(如智能音箱、电视、可穿戴设备等)、汽车电子(如语音车锁和导航)、服务业(如电话客服、酒店登记、速记与翻译)等等。业界普遍认为,语音将成为继键盘、鼠标、触摸屏等一切基于手的人机交互方式之后的下一代主流人机交互方式。

因此可以说,凡是需要人和机器终端共同完成的任务并且不适合或即使适合用手进行交互的地方,都是智能语音技术在当前和未来的应用领域。

就整个智能语言技术的应用水平来看,目前在某些限定领域、限定范围和限定方式下,可以做得比较好,但在通用场合距离实际需求还差很远。

切忌过分泛化和夸大

记者:未来发展趋势如何?将为人工智能带来什么新的机会?

郑方:有一个很重要的技术发展趋势就是语音识别、声纹识别、自然语言处理三大核心技术的充分融合,用“一句话解决所有问题”。举个例子,现在市面上已经出现的各种所谓智能语音硬件产品,只能执行一些简单的指令,不仅识别不了说话人的身份,更谈不上理解说话人的意图。在不久的将来,一旦系统能同时完成业务识别、意图理解及身份认证三个步骤,用户就只需要对着手机说:给张三转1000元钱,这样,一句话就能实现自动转款。这恰恰正是声音所具有的独一无二的“形简意丰”优势——从一句话里就能提取出身份、内容、性别、语种、口音、情感等信息。这时候,智能语言产业才能迎来真正的爆发。

随着智能语音技术的不断成熟及其与其他信息技术的不断融合,智能语音有望在更多垂直行业得到应用,并推动这些垂直行业加快向智能化方向发展。比如:未来教育,包括教师教学质量评估、学生学习效果评测等;家居助手,包括居家生活的管理与监控、完成家务、照看老年人和儿童;深度旅游、自助旅游领域的行程规划和安排、语言交流、背景信息等;商务活动助理,如协助谈判、会谈纪要生成、活动规划与安排、自动接待等。

需要特别提醒的是,对“机会”或“改变”的表达,建议切忌过分泛化和夸大。它依赖技术自身的进步和人们内在的需求。

保障“最后一厘米”安全

记者:作为以声纹识别为核心的智能语音技术及产业发展的领先者,贵机构未来的主攻方向有哪些?

郑方:我们认为,随着移动互联网的普及,以手机为代表的智能终端将是智能语音技术的最佳入口。因为它的普及程度高,成本低廉,已经具备了广泛的群众基础,无需让老百姓再去掏很多钱购置更多新奇而昂贵的新产品。这比较符合我国国情。然而,手机等终端在智能语音技术上的技术潜力还远远没有被挖掘出来。

我们围绕自动语音识别、声纹识别、自然语言处理三大核心技术开展工程化研究和产品化开发,其中产品化方面做得最好、应用最成熟的就是声纹识别技术,现已获得十多项国内发明专利和1项国际发明专利,是工信部《自动声纹识别(说话人识别)技术规范》、全国安标委《安防声纹确认应用算法技术要求和测试方法》、央行《手机银行中基于声纹识别的增强安全应用技术要求和规范》等声纹识别技术行业应用标准的主要起草者,也是生物特征识别国家标准工作组里的唯一一家声纹识别厂商。

我们把声纹识别技术成功运用于金融、汽车、门禁等对身份认证要求很严格的领域,用于保障移动互联网的“最后一厘米”安全。比如,我们研发的“声密保”系统已成功部署于中国建设银行手机银行客户端上,是全国第一个将声纹识别身份认证技术应用在手机银行中的案例。

首页    媒体报道    2017    羊城晚报:借助声纹识别,智能语音有望在垂直行业广泛应用 2017-8
收藏
创建时间:2021-11-24 16:19