- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
下一代IP骨干网的扩展性和生存性探讨
世纪之初,网络泡沫的破灭使世界电信业陷入了空前的困境,然而,电信的内在需求没有根本改变,人们没有少打电话,也没有少上网,移动短信业务如火如荼,P2P业务已经成为网络的主要流量,IPTV业务蓄势待发,世界IP骨干网带宽需求的年增长率依然高达50%至100%,而我国在过去几年里的干线业务量和带宽需求的年增长率已经超过200%,预计未来几年的年增长率依然高达100%左右。
然而,随着IP业务逐渐成为电信网络的主导业务量后,作为主要业务承载层的互联网的一系列固有缺陷开始凸现并影响到下一步的发展。就骨干网而言,网络扩展性和生存性是目前的两个主要缺陷,因而也是下一代IP骨干网设计的两个重点研究领域。
网络的扩展性
网络的扩展性已经成为可持续发展的瓶颈
由于IP业务量的增长是指数式的,这就要求网络容量具备很好的扩展性。大容量路由器、高速链路、大型网络负载分担技术、大规模路由技术是当前保证网络扩展性的主要技术,其中最关键的是大容量路由器技术,其容量发展无法赶上IP业务量的增长速度。这种扩展性的限制意味着很短的服务寿命。现有IP网络基础设施每隔两年左右就需要全面升级一次,网络运营者已无法忍受这样频繁的网络升级换代,要求开发可持续发展的新一代高性能超大容量路由器。可见,路由器的扩展性已经成为未来IP核心网可持续发展的基本限制问题。
路由器的扩展性及其解决方案
目前,解决路由器容量扩展性问题已经有多种解决方案,最简单的方法是依靠以端口路由互联为基础的多路由器群集(clustering)方式。基本思路是将若干较低容量的路由器群集在一起,构成一个外部接口容量很大的节点,需要扩容时增加一个较低容量的路由器。这种方案的实质是将负荷分配在多个不同路由器上然而这种扩容方案有如下缺点:第一不同路由器靠端口互联会浪耗大量昂贵的外部端口,互联成本大幅度上升,特别是互联的路由器数超过四个后,互联链路将消耗掉大部分端口的带宽。第二,随着IP流经过的路由器数的增加或实时业务的IP流的比例增加,网络延时和抖动值会迅速增加。第三,多个路由器靠端口互联会引起热点问题,即瞬时的动态流量在不超过总容量的情况下却会使容量最小的路由器过载或延时变大。第四,协议处理开销较大、路由表条目增加、路由收敛时间增加,影响了总的群集路由器的扩展性和性能。第五,如果考虑到实际网络中路由器有很大一部分是转接容量,内部和外部接口的容量都必须增加转接业务预期的数量,导致很大的浪费。最后,这种群集路由器的网络管理很困难,每个路由器运行自己独立的路由控制协议,路由协议的对等实体很多,使路由体系的实施很复杂,而且软件升级必须在每个节点内的多个路由器上进行,网络有可能出现稳定性问题。
解决扩展性的第二种方法是采用多网络平面方式,这是目前很多运营商采用的扩容方案。其思路是每个核心节点均由多个数目相同的较低容量路由器组成,构成一个个高容量核心节点,同一核心节点内的路由器间并不互联,而不同核心节点中的较低容量路由器则分别一一对应互联形成多个不同的网络平面。网络边缘节点分别与相邻的核心节点中的每个较低容量路由器相联。采用这种配置方式不会因为同一核心节点内较低容量路由器的内部互联而损失核心节点的外部接口容量。运营商可以根据业务量需要增加更多的网络平面来满足容量需求,而以前安装的设备仍然可以继续使用。然而,这种扩容方案有两个重要缺点。其一,当两个核心节点间的流量增加,而其槽位已经占满时,既便其他核心节点间没有扩容的需要,整个网络也必须新增一个网络平面,配置大量路由器,造成投资浪费。最后,网络复杂性的增加导致大量的路由器更新信息时可能造成网络的不稳定。其二,若两个核心节点间的流量增加而其中一个核心节点的所有槽位都已经占满时,可以在相同位置新增一个核心节点的方式来扩容。缺点是即便只需要新增一个槽位,也需要新增若干路由器并提供给其他节点大量互联链路。
解决扩展性的第三种方法是采用扩展性较好的单个大容量路由器,构成一个网络平面,结构和规划设计简单,成本较低,根据需要增加接口卡和机箱即可。主要实现方案有总线、全网状连接、共享内存、三维环形网状和交叉开关等,其中交叉开关方案是当前主流实现方案。然而,交叉开关方案仍不够理想,主要原因是其交换矩阵的规模随端口数N的平方关系增长。随着端口数和端口速率的增加,为了有效保持无阻塞特性,需要更多的输入队列和更复杂的集中调度,实现难度越来越大,代价和成本也越来越高。而且,这种单级单平面交换结构的仲裁器往往形成瓶颈。升级扩容必须依靠机箱和交换矩阵的更新。简言之,采用单级单平面交换矩阵总是会遇到这样或那样的技术瓶颈,最终导致接口数的增加。可见,这种方案也不是长远的大容量路由器解决方案。进一步的解决方案是采用多级多平面交换矩阵,即空间域多级交换矩阵。这种方案的基本原理是利用多个独立自主的交换矩阵,组成一个多级多平面交换矩阵,每个平面拥有自己的仲裁器,解决了仲裁器瓶颈问题。平面间的独立性降低了增加平面可能造成的丢包。从扩展性看,采用多平面交换矩阵可以利用多个并行的交换矩阵,从而扩大了系统总容量或增加了系统的冗余能力,避免了现行制造技术的瓶颈。从交换矩阵看,采用多级交换矩阵设计可以增强系统的动态扩展能力,其成本随端口数的N•logN关系而缓慢增长,因而端口数可以大大增加,明显改进了容量扩展性。然而,这种方案的单节点容量潜力仍然不能满足长远的需求,使网络总容量的扩展性受限,需要探求更进一步的扩容方案。
解决扩展性的第四种方法是采用一体化路由器结构方案,又称为路由器矩阵技术或多机箱(Multi-Chassis)组合技术。通过采用并行交换技术,组成一个多级多平面的交换矩阵系统,从而突破单机箱在交换容量、功耗、散热等方面的限制,实现更大容量的路由交换系统。此时每台路由器由一个专用交换矩阵机箱和多个接口板机箱组成,所有机箱之间的连接都是路由器内部连接,由一个集中的管理和路由控制引擎负责控制管理,每个节点只有一个路由控制进程,从外部看仿佛一台路由器一样,即逻辑上是一台路由器。这样可以使路由体系和MPLS实施变得比较简单,运行管理得以简化,运营成本可以降低;由于消除了协议开销和进程间通信的最佳化,扩展性和性能得到明显改进;通常采用新型的高容量低成本光接口互联各个机箱的背板,无需普通接口板卡所必须的超高速存储芯片阵列和用于缓存的高速同步动态芯片阵列,再加上采用低成本的光源VCSEL,使互联成本远低于普通端口互联方式。然而,这种方案需要解决路由器矩阵的无阻塞设计、路由和控制引擎的处理能力、可靠性设计以及运行管理等关键技术问题。此外,光交换矩阵本身也会增加系统的初始投资,但考虑未来升级扩容费用后,总成本仍然是合算的,能够较好地解决路由器的扩展性问题,真正实现Tb/s级和数十Tb/s级的超大容量核心路由器。
从更长远的发展看,电的交换矩阵在速度上总是要受限于器件和微带处理工艺以及功耗和串扰的,其规模则会受限于芯片内部逻辑和引脚数的限制,接口速率的提高还要受包头处理的复杂性所限。此外,日益增长的巨大路由表对线速处理和交换(特别是40Gb/s速率)也成为很大的负担。最后,目前的路由器及其网管工具尚不具备良好的安全性,不能有效防范某些恶意攻击和未授权的包选路扰动。尽管已有不少解决方案,但往往过于复杂,消耗太多的路由器处理能力或可能引入新的安全漏洞。简言之,路由器的长远扩展性问题实际上并没有理想的最终答案,深入的研究工作仍在继续进行。
网络的生存性
网络的生存性已经成为提供高质量业务的瓶颈
所谓网络生存性指网络在经受网络失效和设备失效期间仍能维持可接受的业务质量等级的能力。随着科学和技术的发展,现代社会对通信的依赖性越来越大。而另一方面,灾难和故障的影响面也相应越来越大。假设一根承载160×10Gbit/sWDM系统的光缆被切断将会引起大约1600万条等效话路的丢失,其影响可见一斑。据美国明尼苏达大学的研究结果,通信中断1小时使航空公司损失250万美元,使投资银行损失600万美元。如果通信中断两天则足以使银行倒闭。可见网络的生存性已成为现代电信网至关紧要的设计考虑,也成为市场开放环境下网络运营者之间的重要竞争焦点。
网络生存性的提供既可以在传送层,又可以在业务层,前者是电信网长期以来一直引以为豪的地方,即任何物理层的故障和失效可以利用SDH的多种保护机制在50ms内完成,对业务没有任何损伤。与SDH相比,目前业务层互联网的可用性较差,例如采用传统的IP恢复需要至少数秒的时间,即便采用一些新技术,可以改进恢复时间,但是由于其内在机制原因,依然无法向用户提供确定的SLA承诺。
IP业务承载层生存性的解决方案
IP业务层恢复需要为单个IP包重选路由,需要秒级的时间才能使数据流重新定向,无法传送电信级的语音数据流。业务层恢复的优点是有可能恢复业务层以下所有层面的故障,可以针对不同业务要求分别实施不同保护恢复方法等。主要缺点是恢复速度通常较慢,特别是对于物理层发生的大故障需要恢复的业务量太大,恢复时间将很慢。即便采用IP快速路由收敛,可以将恢复时间降到数百毫秒量级,由于收敛是分布式的,在所有节点收敛之前,都有可能丢包。收敛也是渐进的,对延时和抖动敏感的应用有影响,不能保证全网都具备链路的高可用性。而且规划设计复杂,存在潜在网络稳定性问题。采用MPLS快速重选路由(FRR)后,保护恢复速度极快,可达50ms。然而,网络实施完FRR后,由于种种原因,新路由不一定符合最短路径条件,有可能还需要根据新的条件实施快速路由收敛,在此期间业务质量依然无法完全确保。其次,靠业务层实施业务恢复时,虽然业务本身可以恢复,但是故障链路依然不可用,业务层的整体可用容量还是减少了,有可能导致网络拥塞。第三,业务层配置的路由器保护接口成本要比传送层的同速率接口高几倍,因而业务层的恢复成本要远高于传送层。最后,在目前的分层结构中,业务层并不了解传送层的复杂网络拓扑结构,业务层配置的备用路由与工作路由有可能走的是同一个光缆路由,当该光缆路由出现故障时,则业务层主用和备用路由都遭破坏,使这部分业务根本无法恢复,即业务层可能存在一些多余重复的无效保护。
影响快速路由收敛和快速重路由切换时间的关键因素是故障检测和判断技术,IETF提出的双向转发检测(BFD)协议是关键。BFD协议通过在两个节点间定期快速发送BFD故障检测数据包(可以是任意层面上的数据包),在接收端如果有连续3个约定周期没有收到BFD包就判定为链路故障。目前BFD缺省检测间隔是10ms,连续3次,也就是30ms就可以检测和判断故障。这种检测方式不但可以检测和判断传输链路、光接口和设备端口的中断故障,还可以检测和判断传输层、链路层、IP层乃至应用层存在的误码、丢包等软故障。其次,BFD技术不依赖于其它协议或者应用,可以运行在任何层面,采用硬件实现,不影响设备性能。采用BFD机制后,结合其他技术,大型网络路由收敛时间有望小于500ms,FRR时间可以小于50ms。最后,BFD协议不需要接收端回传响应,因而网络的绝对延时大小不会影响BFD的故障检测速度。BFD的不足之处是对网络抖动较敏感,其检测周期必须大于检测段的抖动。
多层生存性解决方案
可见,按照目前的可用技术,单纯依靠业务层面来实施业务的保护恢复是无法提供确保的SLA的,传送层面的保护恢复功能是不可或缺的,采用多层生存性解决方案是一种更加全面可靠的解决方案。
采用传送层实施保护恢复的主要优势有:传送层保护恢复与具体承载的业务无关。这种恢复包含多个电路、通道、信元或包,影响面大,需要较少的操作即可,因而可望在较短的时间内恢复更多的业务,对网络生存性更加重要。其次,传送层恢复速度通常可以远快于IP业务层,而且传送层重选路由时带宽颗粒大,恢复方法更有效,尤其是对于光缆切断之类的大故障,传送层的恢复又快又简单。第三,实施传送层恢复时对业务是透明的,上面的业务层完全没有任何感知,业务层的整体容量不受任何影响,对业务的质量也没有任何影响。第四,靠传送层保护恢复可以向用户提供确定的SLA承诺,适于专线业务。最后,传送设备的保护接口成本通常要远低于路由器同样速率的保护接口,保护恢复的成本更低。然而,传送层恢复无法检测到上面业务层设备的故障,因而也无法提供针对这类特定业务层故障的恢复机制。此外,由于业务层和传送层互不了解彼此的网络拓扑结构,传送层也会存在一些多余重复的无效保护,浪费了资源。
在多层网络结构中,理想的生存性策略应能充分利用不同技术层面及其相应生存性方案的长处,提供比单层生存性机制更经济更好的方法来实现所要求的QoS。多层生存性策略的主要准则是:
性能:具有足够快的恢复时间来支持所要求的QoS,特别是一些实时性业务;
效率:用于保护恢复的网络空闲备用容量应该最小;
可维护性:生存性策略应该支持网络维护操作;
演进性:新的网络层和新的生存性机制的引入不应受限于生存性的考虑,也不应对现有业务和现有生存性方案有不利的影响;
灵活性:生存性策略应该能提供一整套生存性解决方案来适应具体网络运营者的需要;
成本:生存性策略应该在设备和运营成本间取得最佳平衡。
多层保护/恢复可以有效地结合传送层保护/恢复和业务层恢复的优点,改进全网的恢复效率,同时兼顾不同层面的不同需要。然而,如果没有合理有效的生存性策略和协调机制,单个故障可能触发多个层面的多种保护/恢复机制,从而相互影响乃至发生冲突,轻者会降低网络资源的利用效率,重者将使网络进入不希望的或完全未知的不稳定状态。
理论上,多层恢复应该能有效地利用备用带宽资源。实际上有很多因素会影响备用带宽的选择,例如为了支持业务层生存性,不仅需要在业务层配置备用容量,而且还必须在传送层也配置相应备用容量。此时,上述传送层备用容量不是用作传送层恢复用的,而是为业务层恢复提供替代路由的。此时总成本与各层面所用备用容量有关。事实上,业务层备用容量的大小与规划的故障覆盖范围有关。如果需要应付物理层大故障,那么业务层和传送层的备用容量将很大。另一种更现实的策略是让每一层只负责处理自己最适合的失效故障,例如业务层只负责恢复影响面较小的局部业务层故障,而让传送层负责恢复物理层的大故障。这样业务层的备用容量可以大为减少。
总的看,如果能合适地规划设计,采用一致的、有效的、逐步升级的保护恢复策略,多层生存性机制可以比单层生存性机制提供更多的优势,特别是在总的成本节约方面。关键是要能合理地设计电路层恢复和带宽管理,就可以避免业务层上的大量备用带宽浪费,使网络的总成本最佳。除了上述主要优点以外,多层生存性机制还有其他一系列优点,诸如快速恢复,特别是对于一些严重的和大范围的物理层故障和业务层的局部范围故障恢复速度可以很快。此外,对于某些传送层生存性机制没有覆盖的业务层故障也同样能恢复。还有,保护传送实体数减小可以简化维护管理工作。最后,在多层网中,各种生存性策略可以共存,从而支持各种应用和提供分类业务的特定保护/恢复策略。多层生存性的主要缺点是使网络的规划设计和维护管理工作复杂化了。另外,如果规划设计不当可能造成不必要的麻烦和冲突。
中国电信的实践和思路
为了应对IP流量的快速增长和增量不增收的局面,有效支撑各种新业务的发展,实现业务承载层的融合,中国电信建设了第二张骨干互联网(CN2)作为NGN的融合的业务承载层。CN2的基本特点之一是试图解决或部分解决下一代IP骨干网的扩展性和生存性问题。
就网络扩展性而言,CN2不仅单机容量巨大,而且核心路由器采用多级多平面交换矩阵技术,并具备扩展应用多机箱组合技术,可以平滑扩容到至少2.5Tbit级乃至更高容量,可以应付未来5年的网络节点容量需求。就网络生存性而言,影响快速路由收敛和快速重路由时间的关键是故障检测和判断技术,CN2在MPLS核心层面采用快速重路由技术,实现50ms的保护切换;在IP层面采用快速路由收敛技术,实现平均小于500ms的快速路由收敛。上述措施有效地改进了业务承载网MPLS层和IP层的生存性。为了进一步加强全网的生存性,实现多层生存性机制,正在进行ASON现场试验,以便在合适时机在底层的骨干传送网部署灵活动态恢复的ASON网,弥补IP/MPLS层保护恢复的不足之处,形成一个完整的多层生存性机制,提供更加强大的多层面多技术保护恢复体系。
作者:中国电信集团公司总工程师兼北京研究院院长 韦乐平 来源:通信世界周刊
上一篇:下一代网络业务的特征及其技术
下一篇:接入层网络发展趋势探讨