自治网络与服务2.0
自治网络与服务2.0的目标,是用架构性创新解决电信领域结构化问题,通过数据与知识驱动的智能网络,达到自动、自愈、自优、自治的网络自动驾驶目标。
多年以来,电信行业一直以支持各行业数字化为已任,但从行业内部视角来看,我们虽然运行着当今时代最前沿的网络,但大量运行和维护手法却仍然停留在十八世纪的手工阶段,呈现出一系列结构化问题:一是从财务结果来看,OPEX普遍是CAPEX投资的三到四倍,通过网络建设的优化,很难支撑运营商大规模改善财务状况;二是多代网络叠加造成的复杂性,使得运维人员单靠人力难以把握和应对。大量的站点、管线、机房问题形成物理断点,阻碍了自动化,核心系统的复杂性又导致了70%的网络级事故由人为操作层面引发;三是互联网结构性冲击,不仅在云业务上形成威胁,在网络上也从DC间骨干网向云网协同企业网络渗透,以大规模、广覆盖、高利用、深集成的方式冲击云网协同市场。
从OPEX分布的维度切入,我们不妨分为运维(维护、雇员)、能源(动力、水电、取暖)、资源利用率(电路网元租赁、折旧、网站互联)、体验(销售费用、产品成本)等四个角度,来进一步审视电信行业目前面临的具体挑战。
首先,从运维效率来看,第一大特点是日常维护工作量巨大。以某运营商为例,每年局数据制作超过170亿条,网元参数配置近1000万个,传输隐患整改近百万处,家宽小区资源整治数十万处。而在这些工作中,大量环节与物理设施有关,我们在一个区域调研运营商工单分布如下:26%是馈线、光纤等线缆问题,26%是重启非主设备软件、重启上联设备、简单数据配置等恢复性操作,24%是市电中断后自动恢复,11%是告警自行消除,设备本身的硬件类故障不到10%;第二大特点是每年要应对网络割接升级超过10万次,应急保障近40万次,这些升级和重大事件的系统性保障都需要大量人力投入。
第二,从能源效率来看,站点能耗(包含室外站和电信机房)占到60%~80%,数据中心占到20%,云化之后数据中心能耗占比会越来越高。从运营统计来看,流量在时间和空间的分布是不均衡的:某网络最繁忙的前10%的站点产生50%的流量,而最空闲的50%的站点仅产生5%的流量,但基础能源的消耗又是类似的,即没有流量或流量较低的站点,基础运行仍然消耗着大量能源。
第三,从资源利用率来看,资源利用效率低的根源在于业务量在时间和空间分布不均衡,同时,资源受限于物理分散式设计和运维,没有采用全局式的集中化设计和随时间空间动态调度有效手段。以骨干网为例,运营商的骨干网利用率普遍在30%左右,而过去传统的流量调优,基于专家规则确定调优策略(如调优触发阈值、迁移流量的选取等),不能根据应用及网络的流量状态做动态调整,因而也就不能获得持续负载均衡,这一水平与多家互联网90%左右利用率形成巨大差距。
最后,从客户体验来看,在运营活动中仍存在大量传统的路测、邻区参数优化等人工活动。抽样式测试不能全面客观反映客户体验,尚未系统引入终端、应用、时空等多源动态数据,同时还不能完全驱动网络的自动化调整。
解决方案:用架构性创新解决结构化问题
用架构性创新解决电信行业的结构化问题,顾名思义,即是通过商业模式级创新和系统方案级创新来结合产品级创新,以实现自动、自愈、自优、自治的自动驾驶网络和业务数字化运营,并在运维效率、能源效率、资源利用率、业务体验等方向上取得突破性结果。
在业务场景上,基于运营商业务流程,首先沿“规划、设计、部署、开通、运维、优化”的业务流程,分析活动分布、成本分布、人力分布,并以自动化为目标进行架构性的创新。针对线缆、电力、环境等无源设备故障率高的情况,提出有源管理无源的突破目标,即用有源设备实现无源设备可预测、可管理。针对无流量时网络大量能源消耗的情况,提出比特决定瓦特的突破目标,有比特流动时才有瓦特消耗。针对流量在时空和空间的不均衡情况,提出时间空间复用目标,最大程度复用网络容量。针对终端应用丰富化和体验全流程的特点,提出应用驱动体验改进,引入更多终端应用要素,并用体验结果直接驱动网络自动调整。上述突破从Use Case开始,如同一粒粒珍珠,基于重构的业务流程,我们可以将珍珠一一串起形成业务场景改进。
在训练平台上,华为将着力构建面向电信领域的AI训练平台,训练平台用公有云+Stack模式部署,其中Stack模式可延伸至运营商网络部署,在数据不出网络前提下完成训练。训练平台提供电信领域AI工具链,并提供电信领域通用模型服务。基于网络产品基础数据、实验室测试数据、外场数据、在服务作业过程中形成的标注数据,和脱敏的典型样板网络设备运行数据一起,形成电信数据湖用于持续训练。网络领域“服务2.0”,目标是提供在线数字化的“智慧服务”,提供基于人工智能的在线服务,这种服务基于持续迭代原则,依据业界惯例,构建起“模型即服务”模式,永远处于Beta阶段,不断自我更新和完善。电信模型不断发布到模型市场上迭代更新和优化。
在网络与设备层面,目标是构建一个敏捷的自动化和智能化网络。把下层设备和云基础设施、中间层的网络管理和控制,以及上层全流程系统,分别引入三方面能力达到网络自动驾驶目标:一是设备数字化能力,在大容量、低时延、高可用的基础上,增强动态感知环境的数据采集解析能力,包括对网络周边环境与哑设备的感知,典型如无线领域对天馈状态的感知,网络领域对光纤、信号、路由的感知,IP领域动态按需对大规模分布式流式数据的处理,对网络拓扑的实时动态还原能力,这些网络与设备的感知与数字化能力是自动化、智能化的基础。二是根据AI模型进行推理执行的能力,网络及设备能够利用AI模型进行推理执行,包括数据预处理、AI模型管理等能力,推理执行的过程要保证网络安全性与鲁棒性,部署上可分为嵌入式、网络管控集成、独立部署或以公有云服务形式部署。三是业务流程编排能力,电信领域模型与运营商本地商业流程结合发挥作用,利用模型驱动、流程编排、数据分析、AI等数字技术,逐步实现业务的自动开通与基于业务/网络运维自动化,并使能ROADS体验的实现。
以光网络为例,我们可以了解到AI如何使能全流程的业务发展:从业务场景看,需通过 “开通零等待、运维零接触、体验零差评”的目标牵引,找到开局自动检查光纤、业务发放、网络优化、故障定位以及资源自动调度等具体场景并确定突破目标。训练平台提供电信领域适应的数据及人工智能算法,包括光模块数据、实验室光纤弯折、松动、染灰等测试数据、光网现网运行故障数据等,算法包括基础的数据清洗、信息整合、机器学习建模、深度学习等,共同训练出光纤故障模型、滤波器模型等。通过管控平台与现网相结合,进而实现快速发放、极简运维和智能运营。而这一切的基础就是网络设备层面新增数据采集与解析能力,包括光纤数据、光信号数据、路由数据等的采集能力,同时设备需要具备可靠的推理执行能力。
目标:运维效率、能源效率、资源利用率和业务体验大幅提升
在运维效率层面,运维水平分为三个发展阶段。第一个阶段称为R2F(Run-to-Failure),即网络在运行中突发故障后,运维人员迅速赶去处理,这是最低层级的水平;第二个阶段是PvM(Preventive Maintenance),即例行巡检,也就是对每台设备进行检查来预防故障发生,但这种做法效率十分低下;第三个阶段是PdM(Predictable Maintenance),我们称之为可预测性维护,即能够实现预测某设备未来有多大概率发生故障,再基于状态进行针对性的维护。
自治网络与服务2.0一方面通过网络简化实现设备收编站点,减少电源、连接器、线缆等哑设备问题,另一方面通过“有源管理无源”,促使线缆、连接器、动力环境等问题能够通过有源设备实现管理,如针对光纤实现路由可视、光纤可视、信号可视,从而可以基于状态对光纤老化、过度弯曲、接口松动、路由过长等问题做出预测和定位。通过智能故障预测及网络智能设计,网络负荷被有效分担,抢修和巡检工作也可以因而转换为基于状态的预测性维护,从而将人工开环处理问题,转换为设备闭环处理,实现非物理故障恢复自动化,助力运维效率倍增。
在能源效率上,我们用“比特决定瓦特”的目标作为牵引,即以网络流量大小决定能耗多少。在没有流量的时候降低能耗,通过AI 来基于流量做出预测、实时调整运营商站点和数据中心能源效率,达到节能目的。从站点配套设施收编到设备柜,实现站点能效比最大化;准确预测业务流量,让设备做到深度休眠快速启动,在保证客户体验的前提下,实现设备比特决定瓦特的能耗管理。
在数据中心机房或者站点,每个系统都有数十个参数。通过AI训练,自治网络与服务2.0可以生成散热、环境及业务负荷模型,使得日照、温度和配套设施油机、太阳能和电池等达到最佳能效,为制冷设备的数十个参数寻找最佳模型;在设备层面,可以根据业务负载进行动态能量投放,在没有流量时利用时隙关断、RF深度休眠、载频关断等减少耗电量,同时实现数据中心对象(如服务器组件)的动态节能管理;在网络系统层面,可以构建准确的业务负荷预测模型,达到整网流量最优,从而实现能耗效率优化。
在资源利用率上,自治网络与服务2.0可准确预测长周期流量规律,实现站点、管线、机房等设施的最佳利用;根据用户、终端和业务分布,结合时空数据预测,实现空口频谱最大程度利用;通过业务与流量临近性、周期性、趋势性、事件性特征识别、趋势预测、路径性能预测,来动态合理的分配流量、错峰填谷,大幅度提升网络利用率。同时在不牺牲 QoS 或 SLA的情况下,可让流量路径几乎实时改动,达到最优化。
在客户体验上,对于个人用户可引入终端和应用数据,结合网络的自动闭环,实现基于用户、业务、位置最佳体验。企业用户可分钟级构建云网协同业务,统筹多地域全球网络,全网路由基于自动转发和学习,实现用户无感知的调度和路由。家庭用户端实现云协同,解决家宽品质,用户体验提升由此可被延伸至家庭网络。
自治网络与服务2.0实现路径
实现网络的自动驾驶必将是一个长期的过程,既要有明确的长期目标作为牵引,又不能一蹴而就,需要以终为始、沿途下蛋、逐步落地。我们可以将网络自治分为五个层级,0级为人工运维;1级为辅助运维,系统可持续执行控制某一子任务,如单板倒换与自动重路由;2级为部分自治网络,在适用的设计范围下,系统可根据AI模型或规则完成部分单元控制任务,如根据训练模型数据中心可自动调节水冷设备单元的参数,从而达到提升能源效率降低PUE的目标,但这种动态的预测和调整限制在某一单元内;3级有条件自治网络,可持续执行完整的子系统级全周级闭环自动化,以无线领域为例,能够做到从用户流量的洞察与预测、无线空口资源调度及参数调整、网络调整后的的评估,从感知、决策、执行和后评估都能做到自动化。4级高度自治网络,系统可做到单业务跨领域全生命周期自动化,如Cloud VPN业务设计、部署发放、动态调度、故障自愈实现自动化;5级完全自治网络可在所有网络环境下执行完整动态任务,并能对例外做出合适处理。
网络自治从易到难,依次是重复性执行动作的替代、对网络环境与网络设备自身状态的感知与监控、综合多种要素和策略的分析决策、对最终客户体验的有效感知。系统能力也从某些业务场景起步,最终覆盖全业务场景。
等级 | 名称 | 概念界定 | 执行 | 感知 | 决策 | 体验 | 系统 能力 |
0 | 人工运维 | 即便有辅助工具,仍由运维人员执行全部的动态任务。 | 人 | 人 | 人 | 人 | n/a |
1 | 辅助运维 | 在适用的设计范围下,系统基于规则可重复执行某一子任务。 | 人和系统 | 人 | 人 | 人 | 某些业务场景 |
2 | 部分自治网络 | 在适用的设计范围下,系统基于模型持续完成某一单元的控制任务。 | 系统 | 人 | 人 | 人 | 某些业务场景 |
3 | 有条件自治网络 | 在适用的设计范围下,系统可以持续执行完整的单域场景的闭环自动化,用户在系统失效时接受干预请求及时做出响应。 | 系统 | 系统 | 人 | 人 | 某些业务场景 |
4 | 高度自治网络 | 在适用的设计范围下,系统可以自动分析执行跨域及业务的闭环自动化。 | 系统 | 系统 | 系统 | 人 | 某些业务场景 |
5 | 完全自治网络 | 系统能在所有网络环境,执行完整动态任务和例外处理,运维人员无需介入。 | 系统 | 系统 | 系统 | 系统 | 全部业务场景 |
网络自治与服务2.0模式道阻且长,还需历经长期的实践摸索,华为推出SoftCOM AI,依托于华为对All Intelligence长期而坚决的战略投入,依托于对网络及设备数字化、智能化的体系化投入,依托于在服务领域持续的数字化实践和平台建设投入,打造自治网络方案并实现服务模式升级,发布系列化解决。网络自治如同自动驾驶,同时需要全业界同仁将运营维护经验不断注入系统,共同努力实现网络自动、自愈、自优、自治和业务数字化运营。
图片新闻
发表评论
请输入评论内容...
请输入评论/评论长度6~500个字
暂无评论
暂无评论