推动板块化运维,破解大规模分布式服务框架下的运维难题
- 2023-05-04 浏览:1571
作者:工商银行软件开发中心副总经理 王旭光
近年来,工商银行聚力创新变革,全面实施智慧银行生态建设工程(ECOS),实现了从传统集中式向全分布式的转型突破,自主研发了全球银行业规模最大的企业级云计算平台,在大型银行中率先通过全面分布式架构承载主要业务系统运行,实现了传统单一核心银行系统向去核心化开放生态银行系统的代际跃升。与此同时,工商银行将防范IT系统风险作为防范系统性风险的重点课题之一。当前,工商银行云上节点数量超5万个,容器规模超过30万个,服务数量超过3万个,日均服务调用量达160亿次。对于以“云计算+分布式”为核心、涵盖系列企业级新技术平台的技术体系,其配套运维能力不断提高,监管机构及客户对银行信息系统的安全性提出了更高的要求,这给信息系统高效、安全、稳定运行带来新的挑战。
一、分布式服务框架下运维工作面临的挑战
以分布式、微服务为代表的新架构,在部署节点数量以及服务交互复杂程度等方面都上升到了新的等级,对基础设施、网络环境、基础组件的稳定性有较高要求,同时所形成的网状拓扑结构服务调用链路为生产运行稳定性也带来新的挑战。
一是业务场景通常涉及多个应用组合服务、多个技术组件调用,链路较为复杂,服务组件体量巨大,进而大幅提升了链路分析、跟踪、故障诊断、根因定位等的运维管控难度,在发生基础设施故障或服务异常时,往往难以快速准确地判断业务影响范围。
二是故障爆炸半径难以控制。由于服务调用关系复杂,且对基础设施及技术组件的稳定性存在依赖,因此故障会随调用链延长而持续蔓延,技术基础组件的局部故障可能造成其上层调用的服务出现大面积故障。
三是业务场景全链路上应用的运维能力参差不齐,木桶效应影响了链路所支撑重要业务的可靠性,如何快速识别和补齐短板,确保关键业务链路稳定高效运转成为关键。
四是为传统运维组织协作模式带来很大压力。传统的运维组织架构大多以应用研发组织分组进行适配管理,实际运维过程中,问题的反映通常基于业务视角,同一重要业务链路上的应用可能分属不同运维组织,这将增加上下游协同的沟通和管理成本。
二、分布式服务框架下的运维破局之道
面对上述挑战,工商银行结合业界最佳实践及自身实际情况,开展了基于业务运维板块的运维转型方案研究与实践。按照企业级业务架构及技术架构顶层规划,积极推动面向业务的板块化运维体系建设和转型,将“以业务为中心,构建安全、高效、稳定的技术运营服务”作为管理目标,以板块为抓手,推进运维管控能力提升。
具体而言,运维体系的建设思路主要包括四个方面:一是基于业务和客户视角,将更合理有效的端到端的业务运维板块作为运维单位,将运维视角从单体应用延伸至业务的场景运营;二是推动各业务运维板块内应用架构的优化及板块间的解耦,强化面向业务板块的基础设施、资源部署和边界管理,实现板块间的风险隔离;三是提升基于业务板块和关键业务场景的链路级监控、应急、变更管控及容灾等核心生产运维能力,补齐短板,结合运维智能化转型发展,赋能业务的数字化转型;四是建立和完善与业务运维板块相适配的组织保障体系,进一步优化相关管理机制及工作流程,形成面向业务的板块化运营管控机制。
三、推动板块化运维实施
一是定义与划分业务运维板块。业务运维板块是基于工商银行企业级业务架构及IT架构,结合业务领域划分、业务应用分组及生产运维实际经验,围绕端到端的业务场景定义的,用于承接生产运维、风险管控等运维工作的一组应用或服务群组。结合工商银行IT架构分层体系,明确业务运维板块的三大划分原则:
第一,面向业务的高内聚原则。将渠道、业务产品的应用或群组以业务板块和场景为边界进行端到端聚合,形成渠道类、业务产品类业务运维板块。渠道类业务运维板块如融e行板块、远程银行板块等;业务产品类业务运维板块如对公板块、信用卡板块等。
第二,将业务基础的应用或群组以面向业务的服务能力为边界进行聚合,形成业务基础类业务运维板块,如快捷支付板块、e支付板块、清算管理板块等。
第三,将技术基础的应用或群组以所支撑的业务板块为边界进行从属关系的划分和聚合,确保技术基础服务资源相对隔离。不同类型的板块根据板块自身特点梳理关键业务场景,识别服务链路,明确板块建设目标。工商银行业务运维板块划分示意如图1所示。
图1 工商银行业务运维板块划分示意
二是优化运维组织架构。基于业务运维板块进行运维组织架构调整,改变原来参考应用所属IT架构分层和研发组织归属以及各运维专业进行团队组织划分的形式,转为按业务运维板块进行运维团队的分组并辐射至业务、研发、测试部门。如图2所示,业务板块核心圈内的应用归属同一实体物理团队运维,以此减少同一业务场景的跨部门、跨专业沟通;虚线框内为与板块核心业务紧密相关的技术及业务基础应用,以配备专人配合的虚拟团队为板块提供稳定性保障。通过对板块化组织的调整,实现运维工作本身的解耦和内聚,加速运维视角从科技应用视角向业务视角转换,强化科技与业务的联动,提升问题处置的有效性和响应速度,挖掘运维数据价值,赋能业务运营。
图2 工商银行业务运维板块结构示意
三是开展全链路服务治理及部署调优。明确各板块的核心场景及关键服务调用链路,以板块为边界做好风险隔离,对标板块内应用高内聚、松耦合的目标,做好服务调用关系管控,非关键链路服务采取异步调用、可熔断、降级等措施与关键链路解耦,发生故障时能通过自动化应急手段避免对板块核心业务产生影响。板块之间的调用比照系统内外调用控制,合理划分和部署支撑板块业务的技术基础平台资源,重点保障场景基础设施、网络资源相对隔离,有效控制技术基础组件故障对业务产生的影响范围,减少系统风险在板块间的扩散。
四是构建面向业务全链路的故障诊断中心。建立面向业务全链路的监控规范,基于流量染色等技术构建业务调用链拓扑能力,自动实时生成业务场景实际调用链的拓扑透视图,为板块全链路构建可观测监控底座;对于板块内重要业务场景开展业务生死线指标监控,依托可观测监控底座,加速建设智能基线、故障定位等智能化监控体系,打造一站式全链路可观测中心,提升业务连续性保障能力。
五是拉齐板块内各相关应用的运维能水平。围绕板块内重要业务场景做好全链路性能容量管控、压测,构建板块的实际业务支撑能力,确保链路上各节点达到高可用保障要求,并完善同城、异地的灾备环境,构建快速容灾切换能力;提升突发业务量激增、基础设施或应用节点故障情况下的系统自我保护能力;建立健全链路级应急预案、一键式应急处置能力,提升板块业务连续性水平。
六是健全组织机制,挖掘运维价值,推动板块化业务运营。结合近年来工商银行开展的站点可靠性工程师(SRE)运维模式,建立应用运维团队和业务部门、应用研发团队、测试团队的组织匹配关系,围绕各专业板块核心业务协同建设,共同对业务稳定性负责;同时,通过对运维领域的用数赋智场景的挖掘,完善链路级的技术运营能力,支撑业务运营能力的数字化转型,赋能面向业务的运维价值提升。
以快捷支付业务板块为例,工商银行建立了研发、测试、生产三中心跨专业保障团队,通过SRE运维模式共同对系统稳定性负责,推动板块全链路接入全息监控、应用画像,构建动态展示服务拓扑链路图,完善一键式应急工具,进一步提升面向业务的异常感知能力、故障定位和应急处置能力,推动落实板块内核心应用基础设施内聚部署和技术支撑平台应用单独群组板块划分等重大架构调整,实现对电商大促等重要业务高峰时点备战态资源和独立PaaS资源池的部署调优。经过团队全体成员的共同努力,工商银行快捷支付业务在监管机构排名稳步提升并保持前列,电商大促保障水平逐年提升。
四、板块化运维实施成效与展望
板块化运维是工商银行对运维模式的新探索,是工商银行运维转型的重要实践。经过一年的建设,从试点到形成目前20余个重要业务板块,工商银行板块化运维体系逐步走向成熟,系统性风险防控能力、应急处置效能等各个方面都取得了阶段性进展,影响较大的问题数量降到历年最低水平,应急处置效率不断提高,整体运维水平保持业内领先。后续,工商银行将继续在以下几个方面寻求突破:一是进一步深化板块化运维工作,加强对智能化转型成果的转化和运用;二是进一步强化业务视角和全局视角,在实际工作中保持全局观,从业务价值和业务运营视角看待板块化运维;三是依托板块化运维实践,在完善运维架构的同时反哺应用架构,推动应用架构与运维架构进一步适配。
当前,工商银行正处于数字化转型的关键期。工商银行将以“优化场景联动、数据驱动的生产运维管理体系,防范系统性风险”为运维目标,不断强化科技与业务的融合,使“科技”成为驱动、赋能全行业务的“业务伙伴”,助力数字工行建设;继续运用好“目标导向、问题导向、结果导向”的科学方法,确保运维技术水平同业领先,坚守“金融为民”的初心和使命,夯实风险抵御能力,为数字中国建设贡献“工行力量”。
本文来源:微信公众号《中国金融电脑》2023年第4期
免责声明:所载内容来源互联网、微信公众号等公开渠道,我们对文中观点保持中立,仅供参考、交流等非商业目的。转载的稿件版权归原作者和机构所有,如有侵权,请联系我们删除。