文 / 中国建设银行运营数据中心副主任 王立新
建行数据中心经过近两年的探索与实践,初步搭建了以配置管理及大数据平台为基础的智能运维框架,并在系统画像、应用及交易监控、事件智能分析及处置等应用场景方面彰显成效。
智能运维框架
1.智能运维应用场景设计。对运维场景进行了梳理及分类,不同场景采取不同策略。简单、低频的场景如服务流程、备份管理,采用规范化和流程化;简单、高频的场景如健康巡检、自动化变更,采用自动化和自助化的策略。
2.运维数据建模。以“云计算”为基础,依托于运维大数据的数据存储、价值提炼、智能处理和展示,形成了企业级的运维工作数据视图,规范数据标准,对运维数据进行统一管控。目前数据模型正在支撑成本管理、全渠道监控、运维可视化等多个需求场景的数据分析工作。
3.智能运维PaaS平台。分层构建智能运维PAAS平台。数据采集层属于感知范畴,多种方式对管理对象的指标进行采集与存储;平台服务层即机器学习算法层,基于算法实现对外提供服务,包括传统机器学习算法和深度学习算法;智能应用层按照业务逻辑实现智能应用,可以是最终功能,也可以为其他业务功能提供服务完成新的业务实现。
4.配置管理及运维大数据平台。统一的配置管理具备全面自动化采集的数据生产能力和多场景应用的数据消费能力。建立数据采集通道,实现数据采集、清洗和存储,具备结构化数据和文件数据的分布式存储能力;建立数据消费通道,满足场景化数据建模和数据消费需求,为数据应用场景提供基础数据服务。运维大数据平台优化采集框架,建立多通道采集方式,分类管理。建立了基于流式计算的秒级交易监控平台,为智能运维提供数据基础。
智能运维的探索及实践
1.系统画像。通过长期配置数据、短期相关操作、系统行为模式和健康度评估四个纬度来描述一个系统,以性能数据、容量数据、状态数据、配置数据等为基础,构建两层画像:拓扑形式的静态画像和基于运行模式的动态画像。系统画像在应急中可以直观反映问题在节点间传递路径,还可以反映关系链上发生的事件,将关联分析具象化,配合使用系统画像提供的差异分析与一键式健康检查功能可以起到故障快速定位的效果。
2.应用及交易监控。秒级交易监控提供企业级端到端的交易监控能力,涵盖可用性、性能、容量三大类指标,13个统计维度;可视化数据分析自由定义分析仪表盘,支持性能容量分析、日志分析等功能;应用状态监控满足应用级、业务级的个性化监控需求;数据聚合运算进行实时、准实时建模;动态基线根据监控指标历史样本,自动计算告警阈值。
3.事件智能分析及处置。告警收敛:告警基于规则聚合后发送、基于时间与因果关系进行告警收敛,压缩可达100:1,提高了告警效率和准确性。关联分析:基于配置关系、规则、基于因果关系的关联影响分析;基于时间的关联分析、基于购物篮算法将事件关联推送。事件处置:主要按照人工介入的程度可划分为处置建议推送、半自动化处置、自动化处置三个类型。2017年我行共进行自动化处置39000千余次,包括收集、检查、处理三大类操作。智能基线:基于历史样本自动计算告警阈值、基于正态分布假设的概率算法。
4.交易路径分析。依托运维大数据平台,自动计算交易路径拓扑,为后续的交易质量分析、架构管控提供运行态的数据服务。
5.健康度评估。通过检查脚本和AI算法等手段,对系统的运行状态、合规、风险、安全等方面进行检查。通过规则和算法对健康度进行评测,根据评测结果确定系统的健康程度,利用知识图谱、知识库和规则,对系统提出健康改正建议,持续改进运行状态。
责任编辑:韩希宇
免责声明:
中国电子银行网发布的专栏、投稿以及征文相关文章,其文字、图片、视频均来源于作者投稿或转载自相关作品方;如涉及未经许可使用作品的问题,请您优先联系我们(联系邮箱:cebnet@cfca.com.cn,电话:400-880-9888),我们会第一时间核实,谢谢配合。