- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
基于网管性能数据的KPI优化方法
摘要: 结合中兴通讯在全球商用网的优化案例,讨论基于网管性能统计数据对网络KPI进行优化的思路和具体方法。对网络日常优化所需关注的主要KPI进行了介绍。
概述
随着商用网络规模的不断扩大,单纯采用路测优化方式已经不能满足工作需求。在网络成熟期,更多的情况是首先通过后台网管的海量数据统计和分析,初步找出异常指标,继而确定是RNC级的问题还是个别小区问题,再结合具体的优化手段进行详细分析。本文对基于后台网管性能统计数据的KPI优化手段进行初步的分析。
在传统的基于DT和CQT数据的优化过程中,数据的采集是一个比较费时的过程。为了复现某个问题,可能需要进行大量的路测,之后在对长时间的路测数据进行回放分析的过程中,定位到具体需要分析的问题点,然后从不同的角度进行分析,最终找到问题的解决方案。虽然在一些智能化的工具支持下,问题的定位与分析能在一定程度上简化,但这仍然属于对个案问题进行优化的范畴,缺乏全网级的综合信息加以支撑。而基于后台网管性能数据的优化则与之相反,这种优化方法基于大量的性能统计数据,强调各KPI指标之间的关联性以及KPI指标与各种外在因素的密切联系。工程师需要做的,是在相应工具的支持下,从性能数据与配置数据、告警数据、地理信息、时间信息等入手,深入挖掘数据之间的联系,从而定位KPI相关问题发生的原因,提出相应的解决方案。
常用KPI简介
根据各类计数器,可定义很多种性能指标。其中一部分是一般性能指标,可称为GPI(General Performance Indicator)。一部分是常用的用于评价网络质量的指标,可认为是网络关键指标。
KPI通常分为路测部分和后台部分,本文中专门讨论后台部分的指标。后台网管统计可分为RNC级统计和Cell级统计,针对不同的指标采用不同的统计范围和粒度。
从实际应用的角度,通常有以下几类KPI,分为接入类、切换类、掉话类、资源类、速率类、质量类等,其中很多指标可以进一步按业务等条件进行细分,构成复杂的KPI体系。但在日常的KPI监控和优化的过程中,通常选取最重要的几项指标,反映网络的总体性能。当有必要时,才对描述细节性能的指标进行考察。这体现了问题分解、逐步求精的分析思路。从用户的使用感受角度考虑,最重要的KPI指标应该是掉话率,包括语音、可视电话、PS R99业务以及HSPA业务的掉话率,而CS业务的掉话相对PS业务来说带来的负面体验更严重。其次一个重要的KPI类别是接入类指标,这反映了用户是否能在任何时间、任何地点及时地获取高质量的移动通信服务。接下来的重要指标包括质量类指标、速率类指标等,这些是用户直接能感受到并关心的。切换类、资源类指标则更多地为运营商所关注。
需要说明的是,在基于网管的KPI体系中,部分KPI指标比较难于体现,典型的如呼叫建立时延,其信令点涉及对核心网消息的解码,通常不在RNC内完成,因此更多的是从路测途径对时延KPI进行测试评估。
在基于网管数据的KPI优化方式中,典型的KPI如下图1所示。
图1 典型网管KPI示意图
网管KPI优化
网管KPI优化流程
网管KPI优化是通过对OMC统计数据的分析来定位异常KPI的过程。异常KPI是指日常网络运行监控中网络质量报告输出的KPI不满足项,如接入成功率、掉话率、异系统切换成功率等。不同的KPI的分析方法可能有所不同,但总体流程是存在共性的,其分析思路是:
从面到点进行问题定位和分析,即从RNC级性能到小区级(Cell)性能,结合KPI之间的横向分析,以及从KPI到相关PI的纵向分析。从RNC入手,可以了解整个WCDMA网络的整体性能。如果RNC级的指标有异常,则要分别对每个小区的指标进行分析,确认指标异常是普遍现象还是个别现象:如果是普遍现象,需要从覆盖、容量、干扰、传输、设备软硬件、无线参数等方面进行分析;如果是个别小区异常,应从相应的小区性能统计项进行详细分析。需要注意的是,在查看百分比类相对性指标时,还需要同时查看指标中的绝对次数,因为百分比指标有时会掩盖部分小区的问题。分两种情况:一是百分比指标差,但采样点少,不具备统计意义;二是失败次数(分子)多,但由于总体样本点(分母)更多,其百分比指标会很好,容易掩盖一些问题,需要特别注意。
在网管KPI优化过程中,纯粹的OMC统计数据可能还不够,这时就需要多元化的数据作为分析的输入,如设备告警/设备日志数据、小区跟踪数据。如果仍然无法定位问题,则进行相关小区的DT/CQT专项测试,结合UE侧数据进行分析,直至问题的定位解决。图2是网管KPI优化流程,解析如下。
(1)后台统计指标有RNC级的不合格指标时,明确是否突发性、可自愈性的异常。这类异常包括大风、大雨、冰雹等气候变化,假日、集会、体育比赛等用户集散变化,传输瞬断现象,电源故障等,通常持续时间不长,但是对统计指标可能有很大影响,需记录具体原因和提出相应的改进建议;
(2)若不是突发、可自愈的指标异常,要做的第一件事是检查设备告警信息,排除可能的设备告警,这点很重要。若设备无告警或告警消除后指标没有恢复正常,进行下一步;
(3)将统计指标和话务量联合起来进行过滤,列出所有指标不满足的小区,并进行地理化显示;收集网络当前的传输配置表、软硬件版本和无线参数配置信息,分析筛选出的异常小区是否存在某些共性,如有则针对其共性进行专题分析。典型的共性特征包括:CN/RNC侧重点检查近期有无版本升级、CPU负荷、链路资源占用情况等;传输侧检查是否有传输节点中断、传输误码率过高等;检查硬件更新情况;检查无线侧网元有无软件升级;查看小区上行接收功率指标,看是否存在上行干扰;检查异常小区的几个最常调整的无线参数,看参数是否异常;查看异常小区统计指标恶化发生的时间段,查找有无规律;其他暂没有列出的共性情况;
图2 网管KPI优化流程图
(4)若异常小区没有找到共性,或优化后仍有不满足指标的小区,则进行单小区的异常指标分析。主要关注无线接通率、掉话率、软切换成功率、2/3G互操作指标、PS业务速率等几方面。
(5)上面所有步骤处理完毕后,若仍然有小区异常,并且确认是设备Bug或是系统实现问题,需要设备厂商相关技术人员解决。
无线接通率优化
影响无线接通率的原因分析如下:
(1)覆盖弱区发起接入使得信令流程无法完成导致接入失败;
(2)接入时被叫手机发起位置更新使得寻呼不到手机导致接入失败;
(3)小区重选不及时使得UE未在最优小区发起接入导致接入失败;
(4)随机接入参数(前导功率、小区搜索窗长度等)设置不当使得RRC建立不成功导致接入失败;
(5)LAC区交界处发起接入,由于小区更新导致的接入失败;
(6)RAB建立失败导致的接入失败。RAB指派建立过程有两个制约,一是RB建立,这是对UE的参数配置过程,一般不会发生问题;二是无线链路重配过程,主要完成对NodeB链路参数配置,相对容易发生失败。常见的失败原因有:无线链路重配准备失败(当NodeB的资源出现问题,如发生实例吊死);无线链路重配取消(当RNC内部资源或流程出现问题)。还有一种情况会导致RAB失败,即小区负荷较高时RNC通过接纳控制发出拒绝指令。
无线掉话率优化
无线掉话率优化的思路如下:
(1)分析RNC的掉话率指标,主要从整个RNC的整体掉话率指标上判断掉话率指标是否正常。
(2)分析小区的掉话率指标。主要需要分析小区"AMR掉话率"、"VP掉话率"、"PS掉话率"、"硬切换掉话率"、"系统间切换掉话率",对所有小区分别用以上的指标进行排序,选择指标特别差的小区或者最差的一些小区,进一步分析掉话原因。
(3)检查小区是否异常。检查小区告警,排除小区异常方面的原因。
(4)分析掉话原因,从覆盖、切换、干扰几方面考虑。如果失败信令显示用户面或无线链路失败,并且原因是"RLC不可恢复错误"的话,可能是覆盖导致的掉话问题;分析该小区相关的切换指标(分析小区的切入成功率和切出成功率),确认是否由于切换失败导致的掉话;通过分析小区总带宽接收功率相关指标,分析在掉话率高的时段,是否相应的上行干扰指标也很高,进一步确认是否上行干扰导致的掉话问题。
(5)通过路测重现问题。当通过后台网管数据分析无法进一步解决掉话问题的时候,需要针对小区进行路测,跟踪手机侧和RNC的信令流程进行分析。
切换成功率优化
影响切换成功率主要有以下几个因素:切换区过小,切换参数设置不当,邻区漏配。
(1)切换区过小。切换区过小会使UE没有足够的时间完成切换;
(2)切换参数设置不当。会导致邻区增加/删除不及时,或乒乓切换;
(3)邻区漏配。这种情况是最常见的导致切换失败的原因,而且对网络性能影响较大。漏配的邻区不但会直接造成掉话,还会给网络带来额外干扰,降低网络容量。
其他指标
下面的这些指标不是优化最关心的,但有时也需要结合它们对具体问题进行分析。尤其是当网络用户数达到一定程度后,会更经常用到这些指标的统计。
(1)话务量与掉话率
单纯从掉话率统计的绝对值无法准确判断小区是否存在问题,必须结合小区话务量指标。只有小区话务量(呼叫次数)足够多时统计结果才有参考价值。
(2)RTWP
基站空载时,RTWP(Received Total Wideband Power,宽带接收总功率)均值在-106~-104dBm之间属正常;按照50%负载对应3dB噪声抬升,可知RTWP小于-100dBm基本属于正常范围。分析这个指标需要结合话务量。若在话务量正常的情况下出现RTWP异常抬升,则有可能是存在较严重的外部干扰,这是提示干扰存在的重要手段之一。
(3)码资源利用率
码资源利用率太高或太低都不好,现实中常见的是边缘站点的码资源利用率较低,而密集社区、写字楼、商业区等地域的站点码资源利用率很高,需要保持关注,防止因码资源受限发生的网络问题。
地理化分析方法
随着Google Earth等现代GIS工具的广泛普及,越来越多的优化工具从中受益,使得优化过程中能尽最大可能地利用地理化信息,辅助优化方案的制订。在KPI优化的过程中,常见的地理化分析方法包括:
(1)利用各小区的关键KPI值对小区颜色进行渲染,直观表达全网的KPI分布情况。统计指标的图形化显示对大规模网络优化分析的好处显而易见,图形化的分析结果直观、清晰,且能够表示出站点的相对位置,可以从宏观层面来分析问题,便于分层次实施优化。如图3所示是某网络中各小区的掉话率分布情况,不同颜色代表不同的掉话率等级。
图3 小区掉话率分布图
(2)对TopN问题小区的地理化关联分析,就是将有问题的小区重点集中呈现,以便发现地理上的共性。这样不但有助于整理优化思路,也有助于对一些隐藏问题的判断,如潜在干扰的发现、传输问题的发现等。图4是一个典型案例。黄色区域中包含的是12个掉话率最高的站点,红色区域中的3个站点则是掉话率在前三位的,这表明这些站点在拓扑结构上的很强的关联性。后经查实,这些站点是通过共同的传输接口板接入RNC的,接口板的安插不良导致了掉话率的突然提高,重新连接问题即告解决。
图4 小区KPI的地理共性分析
小结
WCDMA网络的优化是一个复杂的过程,需要从大量数据中进行问题的分类、定位、分析和处理。中兴通讯在全球成功部署大量WCDMA网络的基础上,形成了完善的KPI优化流程和方法。很多网规网优专家经验已固化到中兴通讯网规网优工具套件中,如ZXPOS CNT/CNA/CNO等,其中不少算法已经申请相关专利。中兴通讯将不断积累经验,来提高网络的质量及用户的满意程度,为全球运营商打造WCDMA精品网络。
作者:GU网规网优部 尹建华 来源:本站
上一篇:多方面强力解析 什么是无线高清传输?
下一篇:解析3G网络管理体系