- 易迪拓培训,专注于微波、射频、天线设计工程师的培养
CTO必须牢记的十大服务器管理错误
网络管理阶层的工作就是保证网络的正常工作,从而使得职工们的工作不被打断。可问题在于事物并非总是按照理想状况发展,事实上经常会出现平地起风波的状况。其间有许多原因,这里我们只讨论10种较为常见的网管错误。
1.UPS(不间断电源)的使用问题
某商店正在压榨它的网络系统的最后生命。尽管那台很老的服务器几乎难以满足商店运营的需要,但经营者甚至连更换UPS中的电池都不愿意,事实上电池每两年就应该更换一次。终于有一天突然停电了,而这个UPS实在是太老了,它已经不能控制服务器安全关机了。电池能量大部分早已耗尽,所以它也很快没电了。结果,防控异常情况的控制器没能起到正常关闭服务器的作用。商店每日的正常运转和交易事宜全靠这个服务器。修复服务器花了三天时间,而弥补由此带来的损失需要花费更长时间。事实上,一个价值仅75美元的电池就能有效避免上述事情的发生。
2.没有整理好所需要的东西
一个电话打进公司总部说某个分公司的服务器出了问题,网络管理员飞奔出办公室,驱车一小时到达出事地点。结果,他发现操作系统文件被毁坏了一部分,这样,他所有能做的只有重新安装操作系统。该分公司的网络管理员一时找不到安装盘,没关系,这位总部的管理员有,不过在他的办公室里――离这里单程一小时、往返两小时。收拾好一个背包,随身带着。所有你可能需要的东西,包括你的用户所使用的操作系统备份,都应该在背包里放着。这是很容易做到的,不需要花费些什么,但在更新操作系统之类的问题上能起到关键性作用。
3.没有安装补丁
一个玩具制造商的服务器连接出了问题,使得全体职员与自己的文件都失去了联系,生产被迫停止两天。损失严重!一位新近被雇的网络管理员负责解决这个危机。他很快发现以前的网络管理员在三年前安装系统的时候没有安装补丁。
补丁是免费提供的,也许它们不是开放式的,但它们通常是很容易配置,任何一个系统管理员都能够做到。之前的那位管理员说,因为系统运行得很好,所以不需要打补丁。这种说法显然是很不负责任的。
4.备份工作不当
某医院办公室存储了很多医药文件和病历的服务器出了故障。因为服务器上没有信息可以被存取,办公室的各项运转基本停止。网络管理员立即拿出一个备份文档的带子,试图修复。当她发现这个带子是空的时,心沉了下去。她检查了另外的备份带子,居然全是空的!她检查了办公室的日志,发现同僚们两年来每天都更换备份带,只是带子被放进从来没有安装备份软件的服务器里,没有人知道备份带有问题,因为从来没有人检查过,而只是两年内坚持每天更换空白备份带。这件事使医院损失惨重。其实只要任何一个数据库管理员做一个简单的备份检查就可以避免这种重大问题的发生了。事实上,他们正在这样做,每天都是。
5.劣质的电缆线路工程
一个银行的网络经常出问题,为此他们专门对配线箱做了检查,检查中发现,许多RJ-11和RJ-12的插头插进了RJ-45插座之内。而且在每一个插座里都插入了一根牙签,这样布的电缆线路难怪会出问题。许多网络问题都归咎于不合适的电缆线路连接,所以,精明的管理者最好让有经营许可证的、有担保的并且信得过的电缆线路承包商来架接电缆线路。
6.设备转手次数太多,内部构成出问题
一项专业的运动团体买了一个名牌服务器,但是它刚开始工作时就出问题。该网络管理员向操作系统厂商和硬件厂商提出帮助请求。后来发现,提供这个"名牌"服务器的转售商人给这个服务器配置的是非名牌的内存、非名牌的磁盘控制器,以及非名牌的外置磁盘驱动器,只因为这些组件要便宜一些。该硬件厂商和操作系统厂商拒绝提供支持,因为服务器被一些非名牌的构件所混淆,其结构不易被鉴定。
7.没有签订授权合同
某办公室去年花费大量现金采购了服务器。该系统有RAID 5的冗余保护,双电源和24×7支持,而一年之后,驱动器坏掉了。保证24×7支持的工作人员来了,他打电话给硬件厂商,厂商问他合约号码是什么,而该办公室之前并没有签订授权合同。"没关系,"厂商说,"他们离授权到期还有两年时间,我将在五六天内给你更换驱动器。"
但是,厂商的宽容是远远不够的,最好保证你有全套24×7支持,去一个办公用品商店买标签,在每个标签上写上授权合同号码和技术支持的电话号码,然后把它们贴在每一台机器上。
8.没有建立测试环境
几年以前,一家软件发展公司安装了一个新的工作站,它用的是最快的随机存取储存器,最快的硬盘驱动器和最快速的处理器,它将作为董事长的新工作站。在安装完成后不久,这位董事长接受了来自他最大的合伙人公司的一个请求,用它来测试新的人造宇宙站的通信平台,其结果是蓝屏。当他惊讶之余重新起动计算机时,内部保存的信息什么都没有了。在重建系统之后,他又花了四天时间才从那一堆操作指南中摆脱出来。
另外一家公司的董事长比较聪明,建造了一个测试网络。在系统升级之前,他们会在测试网络上做做试验,一次又一次地找出错误,反复设定网络不断试验,直到它完全正确。只有在试验结果完全正确地情况下,他们才会真正展开系统升级。
第一个公司的董事长再也不把自己的服务器当测试仪用了。
9.存储容量计划不周
某艺术公司五年前买服务器的时候,该服务器可以支持六个8G-byte RAID Array 5驱动器。为了要节省钱,公司坚持只买四个4G-byte驱动器。网络管理员说,不久他们会需要较多的空间,公司最终妥协了,多买了两个驱动器,如此了结了此事。在三年之后他们出现了严重的空间不足问题,他们甚至不得不删除只有50K byte的小文件。他们急需扩大容量,而当时8G-byte的驱动器已经买不到了,更大的服务器又支持不了。而能解决该问题的一个新的额外子系统将需要比原服务器更多的钱。这样,他们只得比计划的提前两年更换服务器。因此,做好存储容量计划,会使你节约开支,甚至可能大大延长你的系统寿命。
10.错误操作是最大的隐患
下午办公室的电源突然断掉了,紧张的办公室经理认为这会损害他们的两个服务器,因此他采取了快速行动――他走过去把服务器都关掉了。回家时,他还为他的快速行动而自豪。可第二天早晨,当他回到办公室打开两个服务器时,发现里面内容什么都没有了。事实上,昨天当他按下服务器开关时,服务器正在进行关键文件的复杂更新工作,他中止一台服务器的工作时影响了另一台服务器关键性数据库的存盘。结果修复网络工作花了两天时间。
在所有保护网络工作的问题中,这种情况是最不可预知的。因此,必须提高网络使用者的技术素质。