面试的时候被有时会被问道的问题就是,如果让你去管理100台服务器,你打算怎么做?
老实说偶只弄过1台服务器,没事上去看看,还是可以的,100台,一台看一眼那就是多长时间啊。1台的时候可以用logwatch每天生成一份日志,每天看一眼日志。或者每天看看awstatus分析后的web日志。可是100台的时候基本不适用了,每天早上看100封mail会疯掉的,况且这个还不实时。。。
听xh介绍之后,看了一下nagios,才知道有人早就想到这些问题了。其实我之前遇到第一个人问我的时候就应该去了解一下的。
nagios是通过nagios进程管理下,定时运行某些检测程序,然后通过web方式来显示检测结果的,比如说ping、pop3、smtp、http,还有switch、router等等,甚至本机登陆用户、运行进程、磁盘空间等,还可以设置服务器的主从关系,比如哪个http服务器是位于某个router下面等,这样提示的时候会一并告诉你(这个还没有测试,不过是看到配置文件有这项设置)。
nagios的安装和配置 http://www.totkat.org/pages/nagios.shtml
类似nagios的还有cacti,这个似乎是用来检测本机的,本机的磁盘空间、流量、负载等,还没有弄太清楚。
Splunk是个商业的日志分析软件,运行于Unix环境,可以支持任何服务器产生的日志,并对日志进行高效索引,以便管理员可以对日志中的各种情况进行搜索,并可以通过图形化方式表现,虽然是商业软件,但是它提供了可以自由使用的splunk server,只是如果需要更多的LiveSplunks,Splunk Sync等功能才需要购买授权。
下面这个地址是Nagios和Splunk的联合使用介绍

http://www.nagios.org/products/enterprisesolutions/splunk/