案例名称
瓴岳科技集团:泰山智能风控系统(TMRS)
案例简介
在普惠金融的大背景下,银行等金融机构中个人及小微企业用户占比不断提升,这对银行的传统风控模式及精细化运营能力提出了挑战。瓴岳科技作为以大数据和人工智能为基础的金融科技集团,利用多年积累的风控技术及经验,为金融机构完成数字化转型提供前沿科技支撑。
“泰山智能风控系统”是瓴岳科技集团独立研发的、以大数据和机器学习算法为基础的人工智能风控系统,该套系统在赋能银行信贷风控方面持续发力,帮助金融机构完成业务规模的提升及坏账逾期率的持续下降,有效提升了金融机构的风控能力。
创新技术/模式应用
当前基于先进的机器学习算法的风控模型在大数据使用和可解释性上,都取得了前所未有的进步。机器学习模型可以有效利用高维大数据,而数据的质量、丰富程度决定了模型的上限。
图表1 泰山风控系统模型平台图
(1) 数据采集平台:终端设备应用可供申请用户下载、安装、注册、填写申请资料、授权操作,并负责采集用户授权信息和用户申请信息;服务器端应用可接收和存储终端设备应用回传的用户申请信息、授权信息等,并进而向第三方发出数据采集请求,也将接收、存储第三方数据;数据采集平台所采集的数据主要包括用户申请数据、鉴权数据、第三方数据等。
(2) ETL平台:提供申请用户数据信息的各种处理方法及离线用户数据的回溯功能,方便为AI模型平台准备模型训练资料。
(3) AI模型平台提供了丰富的机器学习和深度学习软件包,针对ETL平台流处理输出用户特征进行模型训练分析。算法包括监督学习算法和无监督学习算法,如逻辑回归,决策树,GBDT,聚类,深度学习如卷积神经网络、Transformer、图神经网络等。
图2 首贷、复贷数据交互图
在数据利用方面,本机构一大创新在于首贷、复贷数据可以在避免数据信息穿越的前提下,做到互补利用。如上图2示,首贷风控模型可以利用历史复贷样本所提取出的用户行为序列、还款表现数据,帮助对新客户申请做评价,而复贷可以直接利用首贷风控所挖掘的特征甚至模型分数,直接提升复贷模型效果。
除了上述提到的复贷数据应用至首贷的创新,同样,我们也反向的将首贷数据以及运营数据应用至了复贷环节中,实现了对偶性的创新。瓴岳科技集团研发的“泰山智能风控系统”,在首贷数据与运营数据在复贷中的应用具体创新如下:
(1) 复贷对首贷数据再赋能:赋能主要采用了四种模式,分别为,嫁接首贷用户样本至复贷用户集拓展复贷样本厚度,交互融合首复贷特征拓宽了对用户描述的维度,对比挖掘首复贷多阶段数据差异以刻画用户在复贷环节各属性的变化趋势,锚定首贷贷前为起点串联至复贷当前时间节点以延展时间序列数据的长度。通过上述四种方式,不仅完成了首复贷数据间交互二次赋能,还同时实现了对复贷数据集信息含量的扩充,和对正负样本高度失衡的优化,达到了1+1>2的效果。
(2) 复贷风险与运营数据交互再生:风险与运营虽然是两类不同业务导向的模块,然而两者数据间彼此包含着交集信息,粘性大的用户通常也表现出相对更高的风险。通过将复贷的风险类数据与行为类数据进行交互融合,利用泰山系统中部署的深度学习如GAN等,在多维度信息交互的前提下进行大量的样本生成,进而对风险模型与运营模型两者表现都有显著提升。
(3)创新综合打分系统:传统风控会在用户所处的特定环节,给出A、B、C卡评分用以判断未来表现。而“泰山智能风控系统”的打分系统,是以首贷贷前为起点,复贷当前节点为终点,周期性的给出除A、B、C卡评分,此外,还包括欺诈、多头、额度敏感度、留存意愿等多维度的评分。每一次新分数的计算,是另外两种分数的加权,第一种是基于当前面板特征而训练得出的模型分,也是目前行业内较普遍使用的方法,而另外一种,是循环再利用了历史给出的所有评分进行高阶自回归。因为有循环再利用历史分数的模式,随着用户账龄的增长,该系统便能愈发充分的挖掘用户多维度的历史信息和趋势变化,从而更优秀的发挥对未来的预测性能。
综上,通过在“泰山智能风控系统”上嵌合创新的首复贷数据交互模式,我们实现了多种对于首复贷风控以及复贷运营层面的前沿创新系统,打破了数据间的壁垒达成彼此的深度信息挖掘,以及模型间的全联通信息交互。
项目效果评估
(1)用户初始化状态对齐
首复贷数据交互通过数据快照手段保障评级系统在客户不同阶段的可用性,运用严格刻画了完件时间点用户状态并保存,客户全生命周期可对齐相同建模特征,各场景下累加相关信息,丰富模型信息,提升在A、B、C卡阶段风控决策能力。
(2)全生命周期数据回填
利用客户全生命周期数据回填A卡构建过程中用户细粒度分级信息的缺失。受制于表现时间以及数据链路的问题,传统A卡建模场景下,一般聚焦于首贷表现,难以对客户进行细粒度划分,与当前精细化运营场景不符。使用客户在全生命周期的表现数据,更精准地刻画了用户的长期行为,更细粒度地定义了用户的评级,用户形象更加立体化,形象化。借助于label精准定义、迁移学习、多目标优化等手段,数据回填得以反哺贷前决策能力。
(3)人工智能助力风险决策能力
在对齐用户初始化状态、打通全生命周期数据链路基础上,结合数据形态、使用场景以及业务目标,有区别的使用结构化数据、图数据、半结构化数据、数据流等适配算法架构,在不平衡数据集、幸存者偏差数据集上进行源域To目标域的迁移学习、GAN以及生成学习算法,充分利用数据资源,针对性地提升风控系统的决策能力。
由于风控下的大多数场景是进行二分类预测,所以通常使用的模型指标是AUC与KS,在一些特定场景中,会同时兼顾准确率与召回率,以及综合考量二者的F1分数。通过比较仅单独使用首贷或复贷数据的模型,以及在前者基础上依次叠加数据相互赋能、循环打分的模式,可以看到模型性能指标在稳步上升。
图3 复贷数据使用对首贷提升图
图4 首贷数据使用对复贷提升图
项目牵头人
张晋尧
洋钱罐首席风险管理执行官
项目团队成员
仵贇、王丹、王振波、李慧、胡伊、董弋嵩、刘笑臣、魏凤芹、高杨俊红、刘春祥、韩洋
责任编辑:韩希宇
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。