《金融电子化》杂志:10月刊 | 让新金融更普惠 :“所说即所得”服务模式探索 2021-10
文 / 中国建设银行首席信息官 金磐石
清华大学人工智能研究院听觉智能研究中心主任 郑方
满足各类特殊客群的需求,提供个性化的解决方案,用金融这把“温柔的手术刀”纾解社会难点、政府焦点、民生痛点,是建设银行倡导的企业理念,也是作为国有大行承担的社会责任。建设银行坚持科技利民,与高校、技术领先企业开展创新合作,在服务老年人等应用智能技术困难群体方面,探索应用智能语音技术,搭建了“所说即所得”的服务模式,取得了良好的效果。
中国建设银行
首席信息官
金磐石
清华大学人工智能研究院
听觉智能研究中心主任
郑方
为何推出“所说即所得”服务模式
我国银行业正向数字化、线上化快速转型。据统计,银行业的离柜率已超过90%。同时,我国老龄化程度也在加速加深,60岁以上人口数量已超过2.6亿,很多老年人不会上网、不爱用智能手机等新设备,在生活中屡屡“碰壁”,难以享受基于信息化的金融服务,面临看似无法跨越的“数字鸿沟”。
创新不忘服务初衷,国家已着力推动解决“数字鸿沟”问题。2020年11月,国务院办公厅印发《关于切实解决老年人应用智能技术困难的实施方案》,要求推动手机银行APP的适老化改造,提升易用性和安全性,便利老年群体日常使用。2021年初,人民银行下发《移动金融客户端应用软件无障碍服务建设方案》,进一步明确:针对老年、乡村等具有特殊需求的群体,应遵循简洁、易用、稳定、智能的原则,集成语音识别和自然语言处理等人工智能技术,快速定位用户需要的产品和功能,提供更为安全和便捷的、无感式的“语音服务模式”。
打造有温度的金融,助力老年群体融入数字时代。建设银行以用户体验为中心,从细节入手,主动为老年群体提供个性化的解决方案,探索“所说即所得”服务模式,将金融服务送到老年人等群体身边。
何为“所说即所得”服务模式
“所说即所得”本质上是一种人机交互模式。最早的人机交互方式“命令交互界面+键盘式操作”已逾百年,随着鼠标的诞生,又出现了“图形交互界面”,“按钮式菜单+鼠标键盘操作”成为人机交互的主流形态。21世纪初,基于压力传感的触摸屏的出现,使“图标式菜单+手指操作”方式开始在手机端普及并沿用至今。
下一代人机交互的主流形态是什么?业界认为是语音对话。语音信号具有“形简意丰”的特点,虽形式简单,但内容丰富,其包含了身份、内容、情感等多种信息,加之语音对话是最自然的人机交互方式,“所说即所得”是人们最期望的效果。
“所说即所得”模式起源于语音交互界面(Voice User Interface,简称VUI),其最显著的特性就是应用语音识别技术“解放了双手”。新一代语音技术在识别用户指令之外,又陆续衍生出身份识别、意图理解等能力,它将经典意义上的VUI发展为融合用户身份识别和真实意图理解的III(Intended&Identified Interaction)。
语音模式走向实用,自然要综合考虑用户侧的简单、安全、个性化性需求,这需要语音识别、声纹识别、情感识别、自然语言理解、声音鉴伪、抗声纹时变等技术的有机融合。只有这样,用户才能在与机器进行语音交互时,近乎无感地实现身份认证、业务指令识别和意图理解等一系列操作。对于情感识别这一前沿方向,美国工程院院士、斯坦福大学李飞飞教授有一个著名论断:“情感识别是人工智能发展的未来。”
以老年人的生活账务往来为例。假设某位老人想给女儿李玉茹转账1000元,老人只需打开手机银行界面,对着手机说:“给李玉茹转账1000元”,手机银行便可显示转账信息,在老人确认后,一笔交易就简单完成了(如图1所示)。
图1 一句话转账示例
图2 一句话转账流程图
“所说即所得”服务模式的实现方式
幕前一分钟,幕后十年功。为了让用户在前端享有简单易用、自然无感的流畅体验,后端必须有成熟技术的保障,更重要是实现产品层和技术层的有机融合。
首先是产品规划上,需将金融产品服务模块与已有的语音助手模块打通,将“所说即所得”语音服务模式嵌入后者,当产品服务模块唤醒语音助手后,即能调起“所说即所得”功能。
例如对转账人名的识别,由于人名存在多音字、同音字及生僻字等问题,仅用传统的语音识别很难取得较高的准确率,可将人名等信息作为语音识别的先验知识输入,为每个用户建立单独的语言模型,人名识别即可达到较高的准确率。
其次是技术实现层面。“所说即所得”并非多项技术的简单叠加,而是算法的深度融合,因此建构多任务目标的统一处理框架模型至关重要。“所说即所得”模式借鉴了协同学习的方法,对语音识别、声纹识别、情感识别等语音处理任务统一建模,然后将其集成到一个多任务处理系统中。
图3 支撑一句话转账的语音和语言处理技术
以语音识别和说话人识别模块为例,利用说话人信息,为每个用户建立单独的语音识别模型,可以有效提高针对该用户的语音识别准确率;利用语音识别模块的信息,说话人识别模块可以将文本无关的问题转换为文本相关加文本提示的问题,识别性能明显提升。
最后是迭代优化层面。它以共享特征的提取模块作为底层,设计学习函数和学习准则,通过多标签语音数据训练、多目标输出模型,迭代优化各自的模型参数,达到多任务目标处理框架的最佳性能。
“所说即所得”服务模式应用成效及展望
“所说即所得”模式应用以来,效果显著。
一是降低了老年群体获得金融服务的门槛。以前让老年人眼花缭乱的新功能、新名词不再是老人使用金融服务的障碍,老年人无需复杂的操作,只要像跟人聊天一样,说出自己的需求,即可完成转账、支付、缴费等金融交易,可谓“无需伸出手,只要动动口”。
二是减少了人机交互流程。以前,当用户发起账务交易请求时,原有的交互流程至少有验证发起人身份、识别目标账户、输入金额三个环节。在“所说即所得”模式下,用户仅需对着手机说出交易要求这一步,系统即将其诉求自动拆解,以用户无感的方式串接交易流程,用户体验更佳。
三是大幅提升了交互效率。在多环节交互流程中,用户需要对每一环节的结果进行确认,对下一步操作进行查找和选择,一个简单的账务交易所需时间少则数十秒,多则数分钟。在“所说即所得”模式下,得益于人工智能技术的支撑,同一个账务交易在保证同等安全级别的前提下,可将交互时间缩短至几秒钟,大大提高了响应效率。
可以预见,“所说即所得”语音模式的应用场景和适用人群将不断扩大。
一是应用场景将从转账、支付、缴费等特定场景逐步扩展至更多通用场景。“所见即所得”虽起步于账务交易场景,但不会止步于此。随着“建行生活”APP的推广,开门七件事“柴米油盐酱醋茶”,交通、旅行、娱乐、体育等更多场景可融入“所说即所得”服务,动动口,更多服务触手可及。
二是适用群体将从老年群体逐渐扩大至更多特殊群体。凡是需要帮助的群体,都是我们的服务应及之处。共浴技术雨露、享受美好生活,一个也不会少。
此外,在“所说即所得”服务模式的基础上,由设备根据用户人群的偏好,自动发起必要的语音信息,提醒或引导用户参与相关活动、享受相关服务,实现“所想即所得”,让金融服务以更智能、更有温度的形式出现,也是可以期待的。同时,“所说即所得”语音模式所带来的服务创新也会推动银行经营管理的提升,让银行从业者更加关注端到端的流程优化和用户体验的提升。
(栏目编辑:王伟)
我知道你在看哟