Debian Linux服务器被锁定 – 日志中没有线索?

今天早上我有一个服务器锁定.这是从控制台拍摄的屏幕截图:

屏幕截图中没有任何消息对我来说意味着什么.我有一种感觉,重要的东西可能会从控制台滚动.在崩溃发生时,我无法在系统日志,消息,dmesg,调试日志或任何记录的任何内容中找到上述屏幕捕获中的任何消息.这些东西不应该被记录下来吗?

这是一个运行Proxmox的Debian盒子. uname输出

2.6.32-4-pve#1 SMP周一5月9日12:59:57 CEST 2011 x86_64 GNU / Linux

服务器已经上线大约一年没有其他崩溃,它再次启动就好了.

我想知道问题可能是什么,以便我们可以防止它在未来再次发生.但是,根据我迄今为止的证据,我甚至不知道这是硬件还是软件问题.想法?

解决方法

你运行的Debian内核版本究竟是什么?如果你执行“dpkg -l | grep linux-image”,你可以看到完整版和修订版号.

看起来你已经看到了很多次我看过的prevalent bug:在3.2主线之前的内核,2.6.32.50 stable之前和Debian的2.6.32-45之前(基于2.6.32.50稳定),有一个时钟溢出会在~208之后发生正常运行时间,这反过来又可能导致崩溃.我不确切知道在那段时间之后会导致崩溃的原因;补丁本身也是pretty vague about it

Although we may still have enough bits to store the value of ns,in some cases,we may not have enough bits to store cycles * cyc2ns_scale,leading to an incorrect result.

在确定是什么导致它并且部署了补丁之前,我已经看到了由于这个问题导致的数百次崩溃.

错误在2011年底的lkml中是discussed at length.可能有链接this divide by zero bug,但我没有找到任何结论.

TL; DR:可能的解决方法升级到Debian的linux-image版本2.6.32-45或更高版本.

相关文章

在Linux上编写运行C语言程序,经常会遇到程序崩溃、卡死等异...
git使用小结很多人可能和我一样,起初对git是一无所知的。我...
1. 操作系统环境、安装包准备 宿主机:Max OSX 10.10.5 虚拟...
因为业务系统需求,需要对web服务作nginx代理,在不断的尝试...
Linux模块机制浅析 Linux允许用户通过插入模块,实现干预内核...
一、Hadoop HA的Web页面访问 Hadoop开启HA后,会同时存在两个...