当未受影响的unix服务器开始疯狂时,你检查的第一件事是什么？

所以你有这个整齐的设置unix服务器,它超级快速,工作膨胀,一切都很好几个月,突然出现各种奇怪的错误开始出现各种不同的服务,他们没有一个很自觉,更不用说在一起了.

一旦你的ssh会话进入机器,你应该检查哪些便宜的东西？

我特别感兴趣的是创伤故事,突出非显而易见的命令和罕见的情况,但我想明显的是因人而异,所以我们可以自由地列出它们.

第一顺序：它是否有响应？

如果您无法登录,则会出现更大的问题.这通常有两种形式：硬件故障和软件故障.两者都可能是灾难性的.要防止DFA错误,请首先检查一般硬件健康状况 – 通常只需简单的一瞥即可.

二阶：系统的基础结构是否健康有序？

检查系统的“黄金三联”：

>足够的CPU时间可供处理
>足够的磁盘空间可供存储
>工作负载可以免费获得足够的内存

在过去的几十年里,三合会已经扩展到一个“四边形”,其中包括通信(网络)：

>连接功能,响应能力和容量

第三顺序：问题的严重性是什么？

哪些计划或服务受到影响？按严重程度递减顺序,是系统性(系统范围),聚类(一组程序)还是孤立(特定程序)？程序集群通常会绊倒,因为特定的底层服务已经失败或没有响应.系统性问题有时与此相关(想想DNS或IP冲突),但知道在哪里寻找通常是关键.

第四顺序：诊断工具是否提供与该问题相关的有用数据？
现在您已经了解了系统的健康状况(第二顺序)以及它遇到问题的部分(第三顺序),这样可以轻松缩小问题所在.

错误消息或日志文件应该是此旅程中的常见航点.

CPU问题：

> loadav
>顶部
> strace

磁盘空间/ I-O问题：

> df
>杜
> lsof
> iostat
> vmstat

内存问题：

>免费

连接问题：

> ping
>路线(和arp和rarp以及朋友)
> iptables,ipchains,ipfw(对于那些BSD人员)
> traceroute或mtr
> hosts,nslookup或dig
> netstat

最常见的抱怨(我听到)：

电子邮件的传送速度不够快(从发送到收件人的收据超过一分钟),或者电子邮件拒绝我的发送尝试.这通常归结为Postfix在垃圾邮件风暴期间的速率限制,这会影响接受内部传递的能力.

一个真实的例子：

然而,这并非总是如此.有一次,无论服务重启如何,问题仍然存在;所以在3分钟后,是时候开始环顾四周了. CPU很忙,但是在100％以下,然而在一个只有2个核心的盒子上,负载已经飙升至15,并且威胁要更高. top命令显示邮件系统与邮件扫描程序一起处于超速状态,但没有看到amavis子进程.这就是线索 – 邮件队列命令(mailq)在过去20分钟内显示了大约150封未传送的邮件,其中80％以上是垃圾邮件.快速调整以降低速率限制器(降低垃圾邮件风暴的摄入率),同时增加子电子邮件扫描程序进程的数量(以帮助处理积压),然后重新启动服务,解决了问题,系统能够在短时间内完成交付.

问题的原因是amavis父进程已经过时了,并且子进程最终都已经完成了它们的运行(它们在经过如此多次扫描后自行终止以防止内存泄漏).因此,postfix中的SMTP进程试图联系……稀薄的空气……进行所需的垃圾邮件/病毒扫描.我使用的发行版有过时的软件包,永远不会更新;由于安装将在一年左右的时间内被更换,我手动将“安装”更新到最新版本,其中包括几个错误修复.从那以后我没有遇到过同样的问题.

当未受影响的unix服务器开始疯狂时,你检查的第一件事是什么？

相关文章