我应该在Linux服务器上监控哪些指标？

我的任务是设置300台服务器的监控,做不同的事情.我一直在寻找各种工具,比如Nagios,Munin和其他工具 – 所以我对如何实现监控有了很好的了解.

我想知道的是,在我不太了解服务器的情况下,通常监控哪些指标是一个很好的默认值？并且,就警报而言,什么是“理智的默认值”？

我的计划是部署一个监控方案,以默认的默认值作为开始,而我绘制出不同系统的角色 – 我希望这需要一些时间.

也可以用不同的方式询问这个问题：

If you were designing a monitoring-appliance – what should its default Linux-monitoring template contain?

解决方法

指示问题的常用指标包括 cpu利用率,内存利用率,平均负载和磁盘利用率.对于邮件服务器,邮件队列的大小是一个重要指标.对于Web服务器,繁忙服务器的数量是一个重要的衡量标准.过多的网络吞吐量也会导致问题.如果您有需要检查时间的进程,NTP可以成为保持时钟同步的重要工具.

我使用的标准警告级别包括(警告,严重).您可能希望根据许多因素调整值.较高的值会减少警报的数量,而较低的值会使您有更多的时间来应对发展中的问题.这可能是模板的合适起点.

>持续的cpu利用率(80％,100％).排除niced进程的时间.
>每个cpu的平均负载(2,5).
>每个分区的磁盘利用率(80％,90％).
>邮件队列(10,50).在非邮件服务器上使用较低的值.
>繁忙的Web服务器(10,25).
>网络吞吐量(80％,100％).网络备份和其他此类过程可能超出值.如果它们可用,我会使用限制设置.
> NTP偏移量,以秒为单位(0.2,1).

Munin很好地收集了这些统计数据和其他数据.它还具有在阈值通过时触发警报的功能.它的警告能力不如Nagios的警告能力.它收集和显示历史数据使其成为一个很好的选择,能够检查当前值是否与过去的值显着不同.它易于设置,可以在不产生警告的情况下运行.主要问题是捕获的数据量以及收集信息的固定频率.您可能希望按需生成图表. Munin提供了许多我在系统遇到麻烦时使用sar检查的统计数据.它的概述页面可用于识别可能的问题.

Nagios非常擅长警报,但历史上并不擅长以适合与当前值进行比较的方式收集历史数据.它似乎正在发生变化,新版本在收集这些数据方面要好得多.当出现问题时,它是一个很好的选择,可以在没有生成警报的情况下安排停机. Nagios是非常善于提醒服务何时停止.这特别适用于关键服务器和服务.

我应该在Linux服务器上监控哪些指标？

解决方法

相关文章