★ 解决问题
修改ip是比较简单的,rh下面/etc/sysconfig/network-scripts下面几个文件修改了就好,虽然是修改内网ip,我还是对旧的配置文件做了备份,修改之后,重启了一下网络。
#service network restart
这里也有个小问题,不知道ssh怎么做到重启网络居然可以不掉线的。
重启网络之后,查看了一下ip,已经修改过来了,然后重新查看监控,发现192.168网段的网卡也有流量了,说明修改好了。再次尝试从B执行rsync从A同步数据,发现仍然连不上,A上的tcpdump仍然没有数据,B上面的仍然有回应,rsync的出错提示依然没变。这个问题太奇怪了,无意中发现在B上面监听的时候发现返回数据的主机名似乎不是A的,查看之后发现确实不是,再看同机房的服务器,发现有一台的内网ip和A的192网段的ip一样,B访问的其实是那台电脑的,那台没有开rsyc服务,所以连不上了。至此B访问A有回应的问题知道原因,那么就尝试修改一下A的192网段的ip看看。修改到另外一个ip之后,连接B,发现仍然连不上,从B也连不到A,都提示no route,可是查看route表,似乎没问题啊。到底怎么回事呢?此时突然想起来一个问题,他们不会不在一个机房吧。。。赶紧查看服务器托管信息,确定他们确实不在一起,所以访问不通是正常的。这样问题算找到原因了。
★ 新的问题
上面问题解决大概也没用多少时间,10多分钟的样子吧。正准备休息一下的时候,其他技术人员过来抱怨,说有客户反映A服务器连不上了。我看了一下我的监控,没发现问题。通过沟通之后才知道,客户访问的时候是通过内网ip来访问的,也就是10网段的ip(我的监控只能监控外网ip)。而我因为不知道情况不是刚刚修改了ip么,这也简单,改回去不就行了,况且我修改之前还做了备份呢,这里还庆幸了一下我自己想的周到。
覆盖回去,重启了一下网络,然后让他去测试一下。测试发现依然连不上,我开始觉得有点奇怪了,不是都改回去了么,想起来之前还修改过防火墙,就去恢复了防火墙设置,发现还是不行。用tcpdump监控发现似乎有10网段的ip过来访问,但是似乎没有反馈回去的数据,检查apache的日志发现没有相关的记录。而apache用公网ip访问没有任何问题。
此时就陷入了一个困境,因为我没有办法测试内网是不是还通了。其实这是我经验不足造成的,tcpdump既然能看到10网段过来的ip,那么就说明外面的内网ip连接我们这里是没问题的,那也就说明是我们服务器的问题,不会是网络的问题。
此后将防火墙清空也没有效果,tcpdump监控也一直是只有进来的,没有出去的。其实多次强调只有进来的没有出去的,我也在怀疑是不是服务器拒绝连接了?但是我手里只有这一台服务器,没有办法测试使用内网ip通过别的服务器是否能正常登陆,通过本地访问外网ip是一切正常的,可以看到apache中的日志。
这个时候老大在火车上了,有人已经打电话统治他出问题了。老大给我打电话建议我重启一下服务器。其实他这个建议没有任何意义,重启服务器也就是将重启一下网络,而我已经做过这个操作了。重启还要担一定的风险,如果起不来,还得去机房,那服务就不是停几个小时的问题了。不过没有办法中的办法,而我之前也重启一个测试服务器,没有遇到问题,所以就给服务器重启了,这样我也是争取一点时间,好想想到底哪里的问题。
此时各个小头都已经过来站在我后面了,我都能感觉手都有一点抖了。因为这台服务器是我们的主要业务之一,停几分钟就会损失不少钱,而到现在已经一个小时左右了。
重启没有遇到问题,连接上去之后就是启动服务器上面的一些服务,启动服务之后再次测试,发现问题依然,这也是意料之中的。
头脑发热中,发现来访问我们服务器的内网10网段的ip是10.0.0.0/8网段的,而我们服务器设置的是10.x.x.0/24,难道是这里的问题?修改了一下ip设置,重启了一下网络,然后用tcpdump查看,发现现在我们的服务器对10网段的ip访问有了回应了。一阵兴奋,让技术人员测试一下,发现他依然连不上。查看apache日志,似乎已经有10网段的访问记录了。那还是哪里的问题呢?
其实修改内网网段的时候就想到了,是不是路由的设置问题?这时老大提示了一下,看看之前管理服务器的技术人员留下的文档,我也突然想起来,我之前刚好对这台服务器的设置做过仔细检查,并做了备份,包括ifconfig信息,route信息,dns信息等,查看了一下,发现确实是路由表出问题了,新旧路由表不同。
★ 解决新的问题
发现问题所在就好了,接下来就是修改路由表。先修改内网ip的网段,改回10.x.x.0/24,然后修改10.0.0.0/8网段的ip的路由。修改的时候出现了对route命令不熟悉的问题,route add default gw添加了默认路由,发现不行,改来改去,手一抖,在只剩一条默认路由的情况下,执行了route del default gw命令,这样把服务器的网络给废掉了。。。
赶紧打电话联系深圳机房,花了十几二十分钟,最终联系到了机房的工作人员,可是新的问题又来了,我这里的信息没有机架位置,服务器编号等,只有ip又不能确定是哪台,还好工作人员比较好,根据我提供的服务器牌子等一些信息,找到了一台服务器。接上显示器之后,他说没有任何显示。然后说给重启了吧。其实这里他也要担一定的风险,如果这台不是我们的,他也得等着被别人投诉(不过他倒是可以有推脱的理由,可以说对方服务器莫名重启)。启动的过程很让人焦心,现在离已经过去快2个小时了,如果还不能尽快解决,恐怕我留在这个公司的时间也不多了,呵呵。
启动还算顺利,我能登陆服务器了。先启动各服务,测试发现依然连不上。然后我就查看路由,添加了255.0.0.0/8的默认路由,然后tcpdump查看,收发包正常,查看apache日志,记录也正常。让技术人员测试,也正常了。
至此,问题总算解决了。时间已经过去2个多小时了,才发现自己口干舌噪。
★ 总结一下
1) 各服务器配置情况比较混乱,一些特殊设置没有写明,这是导致服务器问题的一个原因。
2) 管理员应该及时对各服务器配置情况做备份,这样即使服务器挂了,也可以参考备份立刻恢复之前的情况。
3) 要相信系统。比如从B服务器rsync连接A服务器的时候,提示连接被拒绝。“被拒绝”说明B服务器的rsync和目的服务器进行了交流,对方不允许你连接,和连接没有响应等是有区别的。而从A服务器的tcpdump中也可以看到根本就没有对方过来的数据包,你也不要怀疑是不是被防火墙挡住了,防火墙挡住tcpdump也可以查看的。
4) 管理员应该对一些常用的命令的所有参数都比较熟悉。比如route,tcpdump,ls,tar,find等等,真正出问题的时候,你觉得还有时间让你去看man来查看某个命令是否能实现某个功能呢?你也不想当着一堆人的面现看吧。
5) 做某个操作前最好先确认一下会不会有问题,尤其是网络和防火墙相关的命令。因为要是设置出了问题,远程控制不了了,你哭都没地哭。但是工作总得做,不能因为怕出问题就不作吧,呵呵,我之前写了一篇如何给系统加防火墙的帖子,可以参考下里面的想法。
6) 压力肯定是有的,就看你怎么面对了,呵呵。平时多花些功夫,出问题了就不会手忙脚乱了。