案例名称
多模态数据在反欺诈中的应用
案例简介
随着互联网技术的发展,智能风控技术越来越多地被应用于金融机构的各个业务中,但现有的各类风控模型均基本使用结构化数据进行构建,对于图片、语音等非结构化数据利用还相对较少。本案例提出一种结合非结构化数据和结构化数据的框架,采用当前较前沿的技术对多模态数据进行特征提取构建反欺诈模型,有效提升了模型的区分精度,助力把控业务风险。
创新技术/模式应用
1、提出了一种结合多模态数据的框架,该框架使用管道的方式,先通过深度学习模型对非结构化数据进行特征提取,再结合提取的非结构化特征与结构化特征构建评分卡,能够对非结构化数据和结构化数据联合建模,对信息的有效成分捕捉更全面,使得各类型数据之间的信息能够实现1+1>2的效果;
图1:多模态风控框架图
2、1)采用通用模型迁移学习的方式对图像这一非结构化数据进行特征提取,预测图像的标签:具体实施过程中,本案例采用了当前最大的ImageNet数据集上训练得到的预训练模型,对其固定卷积过程参数,之后在业务数据上训练拟合模型的全连接层参数,最终得到适配本案例业务的模型;2)同时在训练过程中本案例还采用数据增强技术如对图片进行翻转,旋转,裁剪等,一方面扩充了数据量,另一方面增加了数据的多样性提升了模型的泛化能力,进而提升了模型分类准确率;3)设计了多标签网络预测结构,并设计了多目标的模型训练优化目标函数,使得最终实现训练一个模型预测多个标签的能力;
如图2所示为图像特征提取模型结构。
3、构建结合图像标签数据以及征信等结构化数据的评分卡,提升了评分卡的效果指标。在构建过程中,通过数据空值过滤、唯一值过滤、相关性过滤、多元线性相关性过滤、特征分箱分析、woe编码、编码后的特征相关性分析、逐步回归分析等多个步骤对特征进行筛选,模型拟合后对模型进行稳定性分析、特征稳定性分析、评分分数分布分析、评分卡单变量业务意义分析等步骤对模型进行严格审慎构建。
项目效果评估
·本案例设计了非结构化数据的处理方案,并结合非结构化与结构化数据对现有风控技术进行增益,帮助金融机构更全面控制金融风险,有效规避金融欺诈风险;同时提供了一套可行的多模态数据风控方法论可以推行至其他各个业务场景;
·非结构化数据处理模型分类精度能够达到95%以上,能够非常精准给客户图像打标签;较只使用结构化数据的旧模型,多模态数据处理模型从识别好坏申请的能力和模型稳定性上都有相当程度的提升,具体地,auc从0.796提升至0.828,ks从0.48提升至0.5,同时psi稳定性指标稳定在0.05;
·相较旧版本模型本案例能够处理大量非结构化数据,兼容性强,可以外延扩展至文本、语音等各种形态的非结构化数据处理。
项目牵头人
高龙:数智金融创新实验室-智能决策服务部-PO
项目团队成员
司斌斌:数智金融创新实验室-智能决策服务部-建模师
龚永昌:数智金融创新实验室-智能决策服务部-建模师
张青周:数智金融创新实验室-智能决策服务部-建模师
申晓雪:数智金融创新实验室-智能决策服务部-建模师
王珂: 风险管理部-智能风控中心-业务经理
段然: 金融科技部-软件研发中心-技术开发岗
责任编辑:韩希宇
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。