本文节选自《金融电子化》2018年11月刊
作者:中国人民银行郑州中心支行 吴彩霞
编者按
本文从初期挑战、技术实现到最终成果,逐步展现了人民银行郑州中心支行的金融业大数据综合统计信息平台的建设过程。
当前问题:随着金融创新的加快,以跨市场、跨机构资管产品为代表的交叉性金融产品规模快速扩张,但现有统计指标体系难以有效监测。
应对措施:大数据时代的到来为解决这一问题提供了技术条件和可能性。2018年金融工作会议上提出,要加强金融基础设施的统筹监管和互联互通,推进金融业综合统计和监管信息共享。作为重要的金融基础设施,目前各业务系统仍多为指标采集型,缺少有效整合和穿透处理,碎片化问题较为严重,传统技术架构已不能适应新形势下在大数据应用需求,亟需架构转型并及时将大数据理念运用到具体工作中。中国人民银行郑州中心支行在2015年底提出了金融业大数据建设工作思路,充分利用大数据的理念和技术,构建融合统一数据采集、数据资源整合、数据服务共享三大功能的金融业大数据综合统计信息平台。
初期面临挑战
随着金融科技的发展,金融行业的业务形态和业务模式呈现“数字化、网络化、智能化”等业务特点。面对金融业数据量更大、业务系统多样、报表和明析数据关系更加复杂等情况,基层央行在履行过程中,主要面临以下几个问题。
1.IT应用系统落后。需要建设可实时承载法人金融机构的业务数据,并进行逐笔业务数据的处理流程。传统的IT架构在数据接入、数据存储、数据处理和数据展现维度方面显示出响应不及时或无法实现的情况。现有IT设备与应用系统落后,阻碍了大数据和人工智能的实现。
2.数据无法实现关联穿透分析。基层央行在实际工作中,现行统计架构下使用的数据大多来源于加工过的数据,是收集和整理的大量统计指标数据,但由于采集口径和数据标准不一,缺少数据规划。尚未形成行之有效的数据治理体系。各金融机构之间、金融机构内部各业务条线的数据和规范无统一标准,数据采集、治理和标准化接入过程耗时费力见效慢。央行部门之间收集的数据存在重复和不一致的现象,无法做到一次采集、多次加工,只能对金融活动表面情况进行展现,关联性、穿透性较差。无法纵深层层穿透,更无法通过关联关系对隐藏在指标数据背后的原因进行深入分析。同时由于在统计过程中会抹杀和掩盖一些关键特征细节,从而形成大量信息缺失现象,造成应用成本较高,分支机构想高效获取和利用本辖区的数据非常困难。
3.数据安全体系建设难。由于需要对上述各类金融机构的多业务条线数据进行统一整合和分析,除了保证数据存储的安全性,数据传输过程中的安全性保障也是技术实现上面临的难题之一。在传输、存储、加工和使用过程中,既要保证数据不外泄、又要保证不同机构间的传输加密差异性,以及在整体流程中保证敏感数据不泄露,是一个比较大的技术挑战。
技术实现
1.技术架构与选型。针对上述要求,依托大数据平台,科学规划构建了一套完整的技术架构(如下图所示)。该技术架构充分利用Hadoop体系中比较成熟的开源技术,满足从数据采集到数据整合到数据计算到数据展示的需要。
图 技术架构
在技术选型上,通过多次试验,最终对各关键技术架构进行了选型。在数据加密部分,采取RSA实现的公钥、私钥加密技术以保证数据文件的安全性。针对数据报送频度、数据报送方式、数据报送内容等属性,结合网络安全方面的要求,选定FTP作为接收数据报送服务的技术方案。任务调度选型,选择了Hadoop生态圈里比较成熟的Oozie。数据存储,利用Hive实现统一的数据元信息管理,使用Parquet作为Hive表存储格式,以提升查询性能;利用分区技术,提升查询性能;利用Kylin,生成多维Cube,在HBase中可满足多维分析需求。数据查询方面,选用了Impala实现快速OLAP分析的性能要求,并使用了Kylin自带的JDBC实现多维Cube的快速查询和分析。
2.技术实现。整个平台分为底层基础平台和上层业务展现平台两部分,底层基础平台采用Hadoop技术体系,上层业务展现平台分为报送平台和大数据分析平台两部分。报送平台用来接收商业银行上报数据、反馈报送质量;大数据分析平台提供供业务人员使用的报表、统计、查询等服务和可视化展现业务全景等功能。
3.数据采集与治理。由于数据的复杂性,在数据采集阶段鉴于兼容性、灵活性和完备性上的技术考量,选择大数据Hadoop作为数据报送与采集的主要技术,并以“逐笔、全覆盖、无遗漏”的要求采集商业银行全量明细数据。同时将人民银行内部系统、辖区内金融机构、各级政府单位、互联网数据的多渠道数据按照报文报送、Excel模板报送、数据库等多重数据格式进行报送。
数据治理是整个项目的重点技术。平台构建了完备的数据质量控制体系,建设了数据校验规则库,分别进行入库前的格式效验和入库后的表内校验、表间校验、跨系统校验,以及规则库、错误信息实现字段级定位提示。方便了业务和技术人员进行修改,实现了流程化、自动化的数据清洗处理了。治理结果完全符合已有的数据规范和标准,形成完善的数据治理质量控制体系,为实现业务的关联和穿透提供保障。
4.数据安全体系建设。平台数据包含比较敏感的金融数据,数据安全性的保障尤为重要。既要保证数据安全,又要保证数据不会丢失,也要保证敏感数据不会为外部所得,更要保证不同程度的敏感信息由不同管理权限的人可见。基于这些考虑,架构上做了以下设计以保证数据的安全性。
服务安全性:在平台服务模式上建立双活支撑,保证企业级服务的正常运转。
网络安全性:报送机构和业务网络之间通过DMZ网络进行跳转,并设置严谨的防火墙隔离,保证报送机构所在的网络无法访问人行内部的业务网络。
数据传输安全性:利用公钥、私钥加密机制,保证每个报送机构拥有独立加密管理机制,保证数据传输不外泄。
数据使用安全性:建立了严谨的账号权限管理体制,对每个账号的全线功能进行严格控制,在系统中对敏感信息进行处理,全方位保证平台数据的安全性。
项目成果展现
1.构建了一套完整的服务大数据时代的监管数据治理体系。编制了河南省人民银行系统数据的标准规范;打造了完善的数据质量控制体系;目前有近6000条业务数据校验规则保证数据质量;构建逐笔统计业务加工处理流程;设立可靠的安全保密机制;从数据安全、传输安全、使用安全等方面,保证敏感数据的安全性。
2.初步建设了以大数据支撑平台。按照“逐笔、全覆盖、无遗漏”的思路建设监管信息平台,全方位采集金融机构表内和表外逐笔信息。
3.形成切实可行的数据报送渠道。各商业银行采用贴源方式报送数据,按自身业务实际进行报送,不再对名称、层级等业务细节进行进一步加工,不再要求归并业务逻辑,极大减少了商业银行报送的工作量。贴源报送的方式也能准确反映商业银行的业务实际。贴源报送既符合大数据的特征规律,也便于推广到证券业、保险业及新兴金融业态。
4.初步实现央行履职平台。利用数据深度挖掘技术和数据的关联优势,形成快、准、动态、全面的数据特点,提供地方法人金融机构、重点企业风险监测;加强贫困地区精准扶贫状况监测,服务于精准脱贫攻坚战;加强绿色信贷、绿色债券融资监测,服务于污染防治攻坚战,快速全面服务于业务工作需要、提供全方面的数据服务,形成新形势下的人民银行履职技术和数据支撑平台。
责任编辑:韩希宇
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。