基于自然语言处理技术的风险预警机制运用了人工智能的自然语言处理技术,将非结构化数据纳入内部审计分析范围,具体对应到商业银行的风险管理工作中,运用场景为授信业务的全流程风险控制,致力于克服传统方法的若干局限性。
笔者通过构建基于自然语言技术的内部审计风险预警(NAR)框架,以金融行业授信业务非结构化数据分析为具体运用场景,尝试阐明自然语言处理技术在克服传统技术局限、优化审计技术、扩大审计范围和提高审计效率上的先进之处,重点关注商业银行审计风险预警机制的构建。
框架构建
当前,国内外尚无将自然语言处理技术成功用于授信业务内部审计风险预警、落实授信业务规定、防范授信业务风险的框架。因此,笔者构建了基于自然语言处理技术的NAR框架,目的是借助内部审计部门构建的自然语言处理项目,以评估商业银行授信业务相关风险水平,输出商业银行授信业务风险预警信息,明确授信风险来源,提供风险处理非现场监控意见,从而达到降低甚至清除风险状态,或者应对风险、降低风险损失的目标。
本框架以授信业务中的审批意见或调查报告为数据,在应用自然语言技术解析与核验后,输出授信业务风险记录,进一步进行风险预警。本框架主要处理步骤如下。
一是资料准备。通过跑批脚本,从商业银行大数据平台批量自动提取来源于授信业务系统中各环节的非结构化数据和结构化数据等资料,实现数据的每日自动更新。
二是数据要素解析。在数据资料准备完成后,由计算机系统自动运用自然语言技术智能解析授信业务各环节的非结构化数据中的业务要素和关注点,作为步骤3要素核验的要素数据来源。
三是要素核验。由计算机系统自动将授信业务各环节的非结构化数据解析出的要素,与授信业务各环节内授信业务结构化数据核验;某一环节解析出的要素,与后续环节解析出的要素或授信业务结构化数据核验,并基于相似度或概率算法,判定授信业务各环节中的各要素是否存在不一致的情况,形成授信业务疑似风险线索清单。
四是数据输出。将步骤2数据要素解析中形成的非结构化数据、要素解析结果、要素核验步骤中形成的要素核验结果等输出数据,形成关系数据库可存储的二维化关系表,每日自动传送至操作型数据存储,并可在商业银行审计系统中查看分析,作为审计模型编写人员编制非现场核查审计模型的数据基础。
五是非现场内部审计核实。采用初核——下发核实——复核的作业流程,在步骤4数据输出中形成的授信业务疑似风险清单,经总部内部审计人员初次复核后,通过商业银行审计系统的非现场监控模块下发给各分支机构,由各分支机构内部审计人员专人进行核实是否属实,并由总部内部审计人员进行再次复核。
六是风险预警。在非现场内部审计核实中已查证属实的风险记录,通过非现场监控报告定期通报,并作进一步处理,作为今后现场审计发现问题的重要线索,充分发挥内部审计“三道防线”的作用。
应用成效
NJ银行运用基于自然语言处理技术,每日处理公司客户约10000户,未结清授信业务约50000笔,在授信环节内核验方面发现风险记录约300条,在授信调整环节内核验方面发现风险记录约50条,在用信环节内核验方面发现风险记录约3500条,在用信环节是否突存授信环节核验方面发现风险记录约830条,在放款环节与用信环节核验方面发现风险记录约3600条。可见授信业务用信环节是内部审计需重点关注的方向,是贷后管理的重要参考。
笔者采用简单随机抽样方法,共抽取5类业务要素,合计314笔业务,其中担保人业务244笔,利率业务30笔,币种业务4笔,手续费业务3笔,支付方式业务33笔。经核验的112笔业务与实际情况一致,其中担保人业务91笔,利率业务11笔,手续费业务1笔,支付方式业务9笔。进一步经初步排查65等业务为疑似不合规操作,其中担保人业务45笔,利率业务10笔,手续费业务1笔,支付方式业务9笔。
通过智能审计系统分发给各分行进行非现场审计核实查证,经内部审计人员比对授信业务系统中的审批意见与执行信息,核实确认两者不一致的16条风险记录,充分发挥了运用自然语言处理技术进行内部审计风险预警的作用,并发现了3类问题。
一是系统内用信审批意见填写有误,主要是部分分行填写部分授信业务用信审批意见时,部分利率、担保人等关键信息填写错误,共发生5条风险记录。
二是系统内执行信息登记不完整,主要是少数经营机构线下签订部分授信业务的担保合同,未将相应担保信息登记在授信业务系统中,总行相关部门对该情况也没有提出相关的管理要求,共发生8条风险记录。
三是系统内未登记线下审批意见。目前,本行项目型专项额度授信要素变更不能在线上审批,相应审批意见未登记在系统内审批流程中,共发生3条风险记录
下一步研究方向
通过应用NAR框架,NJ银行突破了传统手段效率低、对内部审计人员能力依赖性强的局限,取得明显效果:不仅可以用于授信业务,还可以进一步用于其它类型业务,初步打造了基于自然语言处理技术的审计利器。目前,尚存在一定的不足之处,在以下方面还有待改进。
一是解析内容丰富化。目前,此项目做到了对信贷系统各环节非结构化审批意见数据的解析,但尚未做到对各环节非结构化审批调查报告等数据的解析。因报告存在格式复杂多样,存在表格图片等非结构化内容,对其解析还存在一定的困难。
二是自然语言解析精度有待提高。因信贷审批意见撰写不严谨,如错别字、公司名称简称等,加之汉语语言文字的博大精深,现有的解析算法还需要利用人工智能、大数据等前沿技术作进一步研究,从而提高解析精度。
三是风险预警智能化。目前,此项目只能对授信业务系统中已存在的非结构化审批意见数据进行解析与核验,进而通过非现场内部审计核实做出风险预警,即可以对已存在不合规风险点进行预警,尚不能对可能发生的风险做出预警,需通过人工智能等技术进一步研究探讨。