银行消保工作创新

核心提示文 / 宁波银行杭州分行金融科技部 董星星近年来,我国金融消费者权益的自我保护意识开始逐渐提高,自2013年起,中国人民银行办公厅已三次颁发并修订《中国人民银行金融消费者权益保护实施办法》以保障消费者合法权益不受侵犯,各大金融机构也相继调整

文/宁波银行杭州分行金融科技部董

近年来,我国金融消费者权益自我保护意识逐步提高。2013年以来,中国人民银行办公厅三次发布修订《中国人民银行金融消费者权益保护实施办法》,保护消费者合法权益不受侵害。各大金融机构也相继调整组织架构,加大对消费者保护的投入。《金融消费者保护条例》的完善极大地促进了消费者权益保护和金融业的健康发展。与此同时,金融消费者保护的新工作场景也催化了一些金融科技的创新模式。

背景和方案

根据《中国人民银行金融消费者权益保护实施办法》,金融机构应当增加管控机制,加强对营销宣传的监控,对营销宣传内容的真实性负责。为了保护消费者和金融机构的合法权益,根据商业银行消费者权益保护管理的要求,各类与金融产品和服务相关的文本资料在投入使用前,需要进行消费者权益保护审查。消保部需要对文字资料的使用进行不定期的飞行检查,检查实际宣传文案是否为审核版本。但目前金融行业主要依靠人工肉眼识别,面对大量的宣传产品,审计人员很难轻易检查出实际宣传版本与被审计版本的差异。

在上述背景下,各金融机构开始积极探索金融科技创新方案,解决银行机构宣传文案合规性的智能管控问题。我们还尝试引入NLP技术,利用NLP技术智能识别金融产品的文本内容,从而实现金融文本的智能审核。

关于自然语言处理平台建设的思考

NLP自然语言处理是一门集语言学、计算机科学和数学于一体的学科。它通过信息接收、转换处理、分析输出等,达到智能语义分析的目的。它是一种对人类语言进行专业分析的人工智能技术。目前,NLP已经广泛应用于智能客服、机器翻译、人机教练、舆情分析、合同对比等金融场景。

根据行业场景特点,金融机构的NLP平台可以采用1+N的规划策略,即一个中心平台加多个应用层系统,由多个引擎统一部署,路由层自动分发,为业务调用提供标准接口,将应用场景与NLP模型解耦。在金融领域,我们可以通过NLP训练平台独立训练大部分基础和通用场景,从而生成模型;但是可以在定制模型中引入少量精度要求高的复杂金融场景。根据上述构建策略,NLP平台的架构设计如图1所示。

图1 NLP平台架构设计

在消保文案智能对比的场景下,只需要调用NLP平台,将宣传文案素材与审核通过的版本进行对比。场景不复杂,涉及的文案字数范围有限。因此,不需要专门设置NLP平台的自动训练和模型库,只需要在语料库中加入一些常见的金融产品词就可以提高识别准确率。

自然语言处理关键技术的应用

自然语言处理技术在结构化分析和处理文本信息的过程中依赖于三个关键的基础技术:语料库、句法分析和训练平台。

1.文集

语料库是具有一定结构、代表性、可由计算机程序检索、具有一定规模的语料库的集合,是作为一个或多个应用目标而专门收集的。本质上,语料库实际上是对自然语言使用的随机抽样,用一定规模的语言样本来代表某项研究中确定的整个语言使用。

语料库并不局限于自然语言处理,而是自然语言处理实际应用的关键技术之一。NLP平台语料库主要分为语法语料库和语义语料库。语法语料库是自然语言处理的基础资源,用于学习和训练自然语言处理模型,如训练分词、命名实体、词性标注、句法分析、语义模块、论元角色等。这些基础资源大多来自大众传媒、书籍文学、百科知识等高频词汇和常用句型。自然语言处理使用语义语料库来计算上下义关系、语义消歧和词语相似度。国内常见的语料库有国家语委现代汉语综合平衡语料库、北京语言大学语料库中心BCC语料库、清华TH语料库等。对于特定行业,比如金融行业,通常可以在通用语料库的基础上增加行业内的通用语料库,提高词汇命中的准确率和响应度。

2.语法分析

在NLP平台的句法分析组件中,可以使用最成熟、最准确的PCFG算法。PCFG是概率CFG,它的直观含义是基于概率的上下文无关方法。五元组变成G=,其中X代表有限词汇集,V代表非终结集,S代表语法的开始符号,R代表生成规则集,P代表每个生成规则的统计概率。这些限制如下:

也就是说,非终止符A的转换生成概率的总和是1。

3.培训平台

目前NLP的主流训练模型是ERNIE,ERNIE是NLP模型的MVP,可以实现实体级的连续掩膜,从而避免OOV。同时,ERNIE不仅在MASK上做了显著的改变,而且在训练数据集上也增加了不少。除了使用中文维基百科之外,还增加了平台的所有数据,并在预期处理中加入了中文繁简、英文大小写等不同语言的不同模式,使平台能够学习到统一的语义表示和理解能力,具有很强的通用性。能够有效提升效果,降低应用成本,降低应用门槛,满足真实场景下的应用需求。图2是厄尼原理示意图。

图2厄尼原理示意图

战斗

NLP技术已经广泛应用于金融行业,如舆情分析、合同情报比对、文档情报审计、人机教练等。虽然NLP在人工智能方向表现出了很强的领域创新和构建能力,但在实际使用中也遇到了以下困难。

边界定义。在口语中,单词之间通常是连贯的,而定义单词边界的方法是选择能使给定上下文通顺且语法正确的最佳组合。在书写中,中文的字与字之间没有界限。

词义消歧很多词都有不止一个意思,所以一定要结合实际语境,找出使句子意思最流畅的解释。

句法歧义。自然语法通常是二义性的,对于一个句子可能会剖析很多解析树,但是我们不得不依靠语义和上下文信息来选择其中最合适的解析树。

缺陷输入。例如,在语音处理中遇到外国口音或本地口音,或者在文本处理中处理拼写、语法或光学字符识别错误。

语境理解。例如,如果没有开设课程,问题“这门课有多少学生不及格?”与其说“没人不及格”,不如说“我没上过这门课”。

展览

目前,宁波银行消保领域NLP智能审核应用已在分行试点,通过“扫一扫”行内平台即可实现版本的智能审核。项目一期的有效识别率已经初步达到预期,二期我们将围绕网络文本的NLP智能识别场景进行研究。总的来说,自然语言处理技术在商业银行消费者权益保护领域的应用还处于初步探索阶段。随着技术平台的进一步完善和场景的丰富,NLP技术的应用也将实现深度和广度的双重突破。

未来,金融行业必将发展成为以金融科技为核心载体的商业模式。NLP等前沿技术的应用,很可能带来新的金融生态,引领行业发展新趋势。我们也将继续以业务发展为导向,探索以金融科技为核心的新金融、新生态、新赛道。

 
友情链接
鄂ICP备19019357号-22