- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
应急IT网管系统的研究与实现
浙江移动的综合网管系统建设已经历时近5年时间,成功地实现了对业务支撑网运行状况的集中监控。网管平台的运行及其规范化管理流程在业务支撑网的运维体系中发挥了重大作用,从根本上提升了浙江移动的IT服务质量。应急IT网管系统的实现一方面解决了目前浙江移动面临的实际问题,同时更深入地探索了应急IT网管系统建设的思路,为移动通信及其他行业进行类似系统的建设提供了参考和借鉴。
系统建设原则
应急网管系统的建设,资金投入有限,系统结构也很简单,可是取得的效果却很明显,使这套系统的进一步推广成为可能。目前的正规网管系统,大都以国际上一些大公司的网管产品为基础,加以二次开发实现,动辄投入成百上千万,耗资巨大。这样以来只有大公司能够承担此类系统,可是许多中小企业也有类似需求,却无法承担巨大的投入。应急网管系统有一个最大的优点,就是简单灵活投入小,完全可以考虑将浙江移动应急网管系统的思路和软件推广应用到中小企业去。目前告警方式采用短消息自动发送方式,是一种非常简单实用的方式。浙江移动公司内部配备有短消息接口,其他企业也可以通过购买获得短消息接口的新业务。这样以来,一方面大大降低了中小企业应用应急网管系统的难度,另外一方面也使浙江移动大规模地推广了新业务,是一件互利双赢的好事。
应急网管系统建设原则包括四个方面,即有限功能化、集中化、实时性和高效性以及可靠性。
有限功能化,是指应急网管系统的建设应遵循有限建设的原则,根据"二八原理",有所为,有所不为。监控范围要有所取舍,选择最关键、最核心的监控指标进行建设。
集中化,是指应急网管系统应遵循集中化建设的原则,完善重点功能,实现对应用及软硬件平台系统的统一管理,从而达到"集中监控、集中维护、集中管理"的目标。
实时性和高效性,应急网管系统的实时性包括对系统故障、系统性能等的实时监控和报警,确保在IT网管系统不能运行时仍能对业务支撑系统进行一定的管理维护。
可靠性,是指应急网管系统应在条件允许的前提下,尽可能选择高可靠性的技术实现方式,提高系统的容错能力。
应急IT网管系统介绍
应急IT网管系统主要包括采集模块与处理模块(包括数据库表、视图及数据库程序)。采集模块的作用是进行源数据的采集,通过自行编写的Shell、SQL等程序,定时采集各种被监控对象的性能和状态数据,并通过SQLLoader录入到网管系统数据库中,以供后续分析处理使用。
采集来的数据会进入各表进行存放,部分表上会建立各种视图。一些告警会直接以表数据产生,一些告警则需要由视图来进行预处理,然后以视图的结果为基础产生。状态类告警多为前一类,而性能类告警多为后一类。这主要是由于状态类数据比较容易简单地进行正常或不正常判断,从而形成告警;而性能类数据本身可能并无绝对正常或非正常之分,需要进行分析处理后才能根据具体标准判断是否应该产生告警。
作者:中国移动浙江公司 王晓征 来源:通信世界周刊
上一篇:用统一数据管理实现网络数据变革
下一篇:基于IPv6的组播技术在远程教育中应用