- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
云化能力提升:广东联通OCS系统CF刀片化工程介绍
2011年广东联通OCS系统完成了PROXY刀片化的工程,PROXY对业务增长具有快速扩展性,但CF域不满足这个要求,况且PROXY是在号段基础上对CF进行业务负载的,暂时不具备会话级负载均衡功能。随着OCS系统支撑业务的快速发展,CF侧支撑能力越来越成为制约系统支撑能力的一个瓶颈,以集中式中小型服务器部署的方式扩展效率低、风险高,不能快速满足当前市场发展需求,在IT界云化技术发展影响下,推动CF刀片化技术改造,自然成为系统未来发展的合适之路。
这次工程范围涉及到系统的方方面面,不单有新业务均衡核心模块的研发,还有系统的软硬件重新部署调整和内部数据的割接工程。
(OCS系统子系统集成图)
工程主要涉及系统建设升级的有“ ”部分范围所述,分为:
■ 扩容4个ABM库工程,内部生产数据割接迁移。
■ 设备采购,PC机设备准备、安装、应用,相关网络架设施工。
■ CMP会话负载均衡软件的开发、测试、部署、调试应用等研发及施工。
■ OAM升级改造,满足刀片机集群便捷有效管理的要求,由⑩接口处进行的静态数据分散式配置,改为集中式管理配置,对CF的系统监控接口保留,同时需要扩充对CMP的监控和间接的PC机状况监控。
■ 考虑PC机集群的应用、子系统迁移挪出的机器重新部署、其它子系统对PC机集群的系统集成改造和重新部署,整个生产环境大调整的施工工程。
■ PC机集群数量较多(几十台)且随着业务的不断增长而不断扩展,建设满足集群化部署方式的运维手段也是工程的重要部分,包括:主机资源监控、静态配置数据管理、应用的升级同步、业务运行状况监控等等。
工程中,新增的核心模块有三大块:业务均衡模块CMP、会话同步模块session_syn、超时会话管理改造。主要涉及的功能:
□ 会话级负载均衡网元CCR消息到CF刀片化PC主机。
□ 会话记录集中同步到CMP。
□ 超时会话集中处理。
□ CF刀片集群单节点故障时,故障节点会话记录快速均衡到集群其它PC机。
□ 动态向CF刀片集群添加新PC机。
□ CMP提供人机管理交互接口。
□ CMP提供离线容错功能(单节点故障,当会话同步中而未完成时,可以考虑把会话发往离线节点)。
□ CMP架设OAM统一接口,各个业务CMP统一由OAM监控管理。
CMP在满足上述的功能时,尽量采用开放的设计,以插件和消息驱动的方式来实现,整体的模块框架如下:
在满足上述的功能情况下,对于性能能否满足生产需求和业务增长的需求是这次工程能够胜利完成的至关重要指标。
从OCS现网的业务量统计来看,数据业务最大,每秒10719个请求,如果8个ABM服务器用户量相当,可以认为10719个请求分摊到 8 个节点上面,每个节点处理的请求数为1339个。CMP按ABM和业务来部署,8个ABM,6种业务(数据、语音、会话增值、事件增值、短信、WLAN),共48个CMP进程。每个进程每秒最多处理 1339 个请求的要求就可以满足系统当前要求,考虑将来业务发展等情况,CMP按每秒处理8000 个CCR请求的目标建设。
会话同步模块session_syn同步50万会话记录,提出2分多钟同步完成的时间要求。达到每秒接近4500条记录每秒的速率。
单故障节点异常时,重新更新均衡50万会话记录的时间大概是30秒的要求。
在均衡算法方案中,提出了三种均衡算法:
1、 业务量均衡
2、 加权均衡
3、 时间均衡
√业务量均衡
核心思想:根据处理的业务量进行负载均衡,业务量以计费请求消息数与计费应答消息数之差作为衡量。(优先实现这种策略)
启用计数器登记计费请求消息数与计费应答消息数之差,每发送一个计费请求,计数器递增一;反之每收到一个计费应答,计数器递减一。
算法实现:CMP对每个计费请求消息进行负载均衡选择CF计费节点的时候,先判断是否能直接路由,如:相同会话、相同号码发往同一个节点,不能,对CF所有计费节点的计数器排序选择最小的发送。
特别地,1)如果有新节点添加进来,这个算法也不需要重置计数器。
2)采用计费请求消息数与计费应答消息数之差作为计数器的值,可能由于业务量少或者某个主机处理能力比较快而相对比较集中地把计费请求发送到一个主机节点上面,为了避免这种情况的出现,在CMP实现的时候,当存在多个计数器都是最小值的时候,通过随机函数计算选择某个节点。
√加权均衡
算法核心思想:先满足高处理能力节点的要求,然后才是考虑低处理能力的节点。这么做的理由有三:
1、不可能完全接收到X个消息后再统一分派;
2、不知道接收X个消息需要多长时间;
3、高加权的机器说明更好、更可靠,在不可预知后面接收消息的情况下,先保证当前处理的CCR被更可靠的节点计费。这些都是随机不可预知的,但每接收到一个CCR消息的时候CMP就要作出判断,该发往哪个CF计费节点。
算法实现:1)需要考虑加权值相互之间的比值。2)需要考虑换算以那个加权值为基准。3)换算过程中,是向上折算还是向下折算,由于核心思想中以高比值更可靠,选向上折算。4)均衡过程中,需要考虑加权值相互之间的最小公倍数问题。
√时间均衡
算法核心思想:根据每个CF节点平均处理CCR的时长来决定负载CCR消息数的多少,需要以轮询策略来获取最初的时长参数,然后再计算、转换加权值,最终都以加权轮询的方式均衡分发消息。
算法实现:1)最初的轮询策略分发多少个CCR来获取时长参数。2)每隔多长时间重新调整加权值。3)以什么算法公式转换为加权值最为合理。
为了保证单PC主机发生故障时不影响业务的使用,需要对CF的会话记录进行有效的管理和备份。系统引进了会话双向同步的机制:
OCS系统在正常运行时,需要对会话数据进行备份,进行会话数据的同步处理;当某个节点发生异常时,需要对该节点的会话数据重新均衡到其它节点,启动反向数据同步流程。
最后,CMP完成以后的物理架构图如下:
作者:广州从兴电子开发有限公司 王金铨 来源:厂商供稿
上一篇:超大容量集群光交换技术解析
下一篇:PCC:支撑流量经营 与4G新数据业务的利剑