昨天夜里加班搬迁服务器,虽然没去现场(去不了嘛),但也得网络及肉身在线进行协助。无聊中,看新闻说"某达网科裁员上千人"。马上就想起数年前的一桩旧事,记忆比较深刻---
有人让我去帮忙,说某达那个监控有问题,服务发生故障后,不发送任何报警信息,甚至死机了也照样一片寂静。于是给了我监控服务器的权限,登上去一看,配置基本没问题,用的是nagios(我写了一篇好长的nagios,参看此处),配置也没啥问题。经过一番检查,发现只是启动了apache,而nagios服务本身没启动。不清楚是谁部署的,你干完活,至少也模拟一下,人为把某个服务停掉,看看监控干不干活,不要只顾收钱嘛。检查完这个之后,那边的人不放心,让我帮他检查一下整个环境有没有什么大的问题,于是发来好大一个文件,word的,有好几十页呢,图画得很漂亮。当然,文章里的描述,为了节省我的时间,我就手画了,不会影响阅读。
每一对服务器运行同一个站点,那是大概有20几个某达广场(石景山某达广场、大望路某达广场...)。规划者的初衷应该是考虑到高可用性,死掉一台还有一台可用嘛。但让我纳闷的是,为啥只有一台F5及一台oracle数据库呢?接着,我又随机登录了几个服务器,发现其负载低,访问量也很少,更没有什么在线交易类的其他业务,仅仅就是一个门户而已。
这个规划,在我看来,有几个很明显的问题:
1、严重浪费资源。没什么访问量,也没有重要的交易业务,用服务器使用web虚拟机足以(那时云服务还没出现)应付。40多台服务器,加交换机及F5等,起码要4个机柜,浪费资金,浪费能源,也浪费人力。
2、半拉子高可用:F5及数据库很明显就是单点,随便哪个出故障或者down机,所有站点停止服务。某达土豪,应该不缺这点钱,你弄2台F5,做2节点oracle RAC它也不会破产啊。
3、门户网站用oracle做数据库,本人还是第一次遇到,你让mysql咋想?
讲完了某达,再看两例。
某互联网慈善平台,购买了7台云主机,每台主机都是独立的(独立的带宽,独立的ip),但主机之间的业务有关联。据说每台主机购买带宽为5M,虽然花了不少带宽费,但资源总是不够用--用的带宽跑满了,有的却没有什么流量。从这个事实可以看出,他们做事根本没有规划这个概念,需要一个,就采购一个,钱花出去了,效果也不佳。
建议他们使用云服务商的VPC网络,购买2个带宽,一个用于用户访问(主要带宽),一个用于系统及后台管理(2-5兆足也)。这样即增强了安全性,也降低了成本,提高了效率。不清楚后来他们是否采纳我这个建议。
又有一不知名传媒网站,准备扩容,程序员给我发来了一个购买配置。也是选购的云服务器,cpu、内存、磁盘(好几个TB的ssd盘)、带宽都选得很高,记不得具体的数值了,但据他所说,这个配置费用得好几万,怕费用太高老总不给批。问他,这个服务器什么用途?基于什么考虑?他说发视频和发布视频,如果性能不好,带宽不够会影响体验。其实,对于这类需求,只需要低速、大容量的sata盘,其他配置一般就可以。在前端加缓存或者购买cdn服务,既能降低成本,又能有好的性能。
云计算时代,一些人担忧,做运维会不会到头了,甚至一些企业也这样认为,上云了,一切万事无忧,不需要专业的运维。当你的公司业务,只需要1台云主机的时候,或许是用不着,也不用考虑什么规划。但一旦业务增长,云服务器数量随之大量增长的时候,你能玩得转么?
本文转自sery51CTO博客,原文链接: http://blog.51cto.com/sery/2055843,如需转载请自行联系原作者