- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
如何将1500 节点无盘服务器群发展成为完全虚拟化系统
我们最初是想把工程测试实验室设在三角研究园,以满足 NetApp 内部不断增长需求:能够针对大型网格或服务器群测试产品,并快速重现顾客在这种环境中可能遇到的问题。我们最初计划使用服务器刀片,其中每个刀片都是从本地磁盘启动。但随着项目进展我们开始明白,将启动映像复制到上千个本地磁盘所需的时间和管理开销,会导致配置和管理集群的时间超过运行实际测试。
因此,我们在设计测试实验室时包括了通过 iSCSI 启动的 1,120 个服务器刀片。我们给这个实验室取名为 Kilo-Client,并相信其在 2005 年启动时会成为全世界最大的基于 iSCSI 的无盘服务器群(可能现在还是!)。后来我们还添加了 98 个带 iSCSI HBA 的刀片和 280 个能够通过光纤通道启动的刀片。查看特定硬件和软件组件的选项。
结果:1,500 节点服务器群将高度的性能和灵活性融入到仅占 389 平方英尺多一点的空间中。
尽管 Kilo-Client 目前多少仍保持着它在开始时的动机,但这个实验室已经发展到了可与新兴技术媲美的程度。此外,在过去的两年中,我们掌握了许多有关操作和维护大型环境的知识。本文着重介绍了目前测试实验室设计当中客户和合作伙伴最感兴趣的几个方面,包括:
但在深入探究之前,我想让大家明白 Kilo-Client 仅建立在五、六种不同技术的基础之上,其中每种技术目前都在成百上千个 NetApp 客户的网站上使用。建立体系结构很大程度上就是将所有这些要素整合到单个基础设施中,其中每个要素我都在担任 NetApp 系统工程师时接触过。
简言之:每一位 NetApp 客户都可以利用我们测试实验室中的一切资源。
快速配置服务器
我们早期的一个目标是快速配置能够符合特定测试特点的计算网格。这就意味着必须能够通过任意操作系统/应用程序环境快速启动服务器。我们使用 NetApp FlexClone® 技术解决了此问题,从而能够快速创建系统映像,而无需对这些映像进行完全的物理拷贝。
这样,就为服务器群中所需的每个操作系统和应用程序堆栈创建一套"黄金"启动映像(如 iSCSI、光纤通道 SAN LUN)。使用 SnapMirror® 和 FlexClone,我们可快速复制出数百个克隆(每台配置用于测试的服务器一个 FlexClone 克隆);仅需将特定于主机的"个性化"添加到每个受配置服务器的核心映像。这种独特方法提供的近乎即时的映像配置几乎不占任何空间(只需将不同的映像块添加到存储系统,由存储系统来跟踪各个映像),从而使我们在数分钟内即可配置并启动全部或部分近 1500 个刀片。
虚拟环境
尽管我们的方法非常有效,我们最终发现仅配置服务器环境还不够。NetApp 工程师需要、并且我们必须能够做到的就是快速配置完整的虚拟环境,其中包括计算网格、互连 Fabric 及存储网格。
这正是我们现在所做的工作。我们可以自动配置几乎可运行所有操作系统(包括 VMware)的计算网格,并通过 vLAN (IP)、vSAN(光纤通道)、NFS 甚至通过 CIFS(我们无法通过 CIFS 启动,但可以测试 CIFS 功能)将其连接至五个可能的存储网格中的任意一个。典型的虚拟环境(可能包括 100 个服务器、多个操作系统及五至六个存储控制器)通常可在一个小时或更短时间内就可启动运行。我们创建过的最复杂的环境花了近 10 个小时才启动运行,它包括 500 个服务器、30 个 NetApp FAS 6070、72 个 300GB FC 驱动器托架(约 500TB)及 Data ONTAP® GX 操作系统。
图 1 真正的虚拟环境 无论何时,我们的实验室都在运行着 12 到 15 个虚拟环境,用于从产品和互操作性测试、故障诊断到概念验证测试的一切任务。您可以通过中断服务器并创建该系统的空间高效的派生克隆(使用 FlexClone)来预先进行测试。甚至在其它系统上(虽然具有同样的体系结构),也可以保存或与其他用户共享任何环境的测试配置,并在数月或数年后重新运行。构建环境之后,再也不需要重新构建。比如说,我们构建了 Red Hat Linux® 环境并且团队要求该环境加载 Oracle 10g™。测试完毕后,他们可以创建克隆,并且将来必要时可重新使用该预配置环境。最后一个要强调的是,您可以在世界各地访问和管理这些虚拟环境。在 NetApp 全球六个公司就职的工程师或全球任何位置的 NetApp 系统工程师都可以远程规划资源并运行测试。 最初的 Kilo-Client 设计允许我们使用硬件启动端 (iSCSI HBA) 通过 iSCSI 来启动服务器刀片。现在我们可使用以下四种方法种的任意一种来启动服务器: 使用硬件启动端(1,218 个刀片)通过 iSCSI 来启动 使用软件启动端(整个环境)通过 iSCSI来启动 使用 FC HBA(280 个刀片)通过光纤通道来启动) 通过 NFS(整个环境)来启动 这样我们就可以测试并比较各种环境和启动方法。如果我们并非专门测试启动方法,则可根据测试要求来定制方法。比如,如果有人想通过故障注入来执行光纤通道测试,我们一般会通过 iSCSI 或 NFS 来启动正用于进行其它测试的服务器,从而闲置光纤通道以便进行测试。 该基础设施的最终保证是可扩展性强。公司如何在不增加 30% 比率的硬件的情况下实现 30% 的增长?许多公司都无法继续快速地扩建数据中心来适应增长,并且我们现在所使用的技术类型可能要依掌握时间而定。
上一篇:NetApp某油田公司地学数据存储解决方案
|