服务器CPU使用率过高的处理

最近发现公司服务器搭建的网站访问缓慢,服务器输入命令也反应慢,处理步骤如下:

1、通过top命令查看服务器cpu、内存、IO等使用情况

发现cpu基本在80%以上;内存还好,有富余;cpu平均加载率Load Average也是达到40左右


2、通过vmstat、iostat参看相关参数,确认是cpu占用很高,cpu不够用,当时以为服务器cpu被用完了,但是应用不是很多,两cpu是够用的


3、后来慢慢看进程和服务线程以及端口号占用和包发送,(w、procinfo、ps、uptime、netstat),只看到被应用的日志占用大多的cpu资源


4、后来百度了一下,有个类似的帖子,《解决centos删除文件后没有释放空间》(来源:blog.51cto.com 作者:cj397428869


4.1、其帖子如下:

现象:

发现当前磁盘空间使用情况:

[root@ticketb ~]# df -h
FilesystemSize Used Avail Use% Mounted on
/dev/sda1981M 203M 729M 22% /
none16G 0 16G 0% /dev/shm
/dev/sda92.9G 37M 2.7G 2% /tmp
/dev/sda74.9G 1.9G 2.7G 42% /usr
/dev/sda82.9G 145M 2.6G 6% /var
/dev/mapper/vghome-lvhome
20G 19G 11M 100% /home
/dev/mapper/vgoradata-lvoradata
144G 48G 90G 35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
193G 7.8G 175G 5% /u01/backup


通过下面的命令找到无用的文件,然后删除

[root@ticketb ~]# find /home/oracle/admin/dbticb/udump/ -name"dbticb_*.trc" -mtime +50 | xargs rm -rf

然后在查看磁盘空间使用情况,发现没有/home空间没有变化

这个郁闷啊,明明删除文件了,怎么空间没有被释放啊,rm命令应该是直接删除啊,在查看下下还有什么占用空间

[root@ticketb ~]# du -h --max-depth=1 /home
16K /home/lost+found
2.6G /home/oracle
2.6G /home

可这里显示空间已经释放了啊,于是google下,

未释放磁盘空间原因:

在Linux或者Unix系统中,通过rm或者文件管理器删除文件将会从文件系统的目录结构上解除链接(unlink).然而如果文件是被
打开的(有一个进程正在使用),那么进程将仍然可以读取该文件,磁盘空间也一直被占用。而我删除的是oracle的告警log文件
删除的时候文件应该正在被使用

解决方法

首先获得一个已经被删除但是仍然被应用程序占用的文件列表,如下所示:

[root@ticketb ~]# lsof |grep deleted
oracle 12639 oracle5wREG253,0648 215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc(deleted)
oracle 12639 oracle6wREG253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 12639 oracle7uREG253,0 036282 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle 12639 oracle8wREG253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 12641 oracle5wREG253,0 648215907 /home/oracle/admin/dbticb/udump/dbticb_ora_12637.trc (deleted)
oracle 12641 oracle6wREG253,0 16749822091 215748/home/oracle/admin/dbticb/bdump/alert_dbticb.log (deleted)

oracle 23492 oracle6wREG253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 23492 oracle7uREG253,00 36282/home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstdbticb (deleted)
oracle 23492 oracle8wREG253,0 16749822091 215748 /home/oracle/admin/dbticb/bdump/alert_dbticb.log(deleted)
oracle 23494 oracle10uREG253,00 36307 /home/oracle/oracle/product/10.2.0/db_1/dbs/lkinstrmandb(deleted)

输出结果可以看到/home/oracle/admin/dbticb/bdump/alert_dbticb.log还被使用,未被释放空间

如何让进程释放呢?

一种方法是kill掉相应的进程,或者停掉使用这个文件的应用,让os自动回收磁盘空间

我这个环境有很多进程在使用的这个文件,停掉进程有点麻烦,再有就是风险很大

当linux打开一个文件的时候,Linux内核会为每一个进程在/proc/『/proc/nnnn/fd/目录(nnnn为pid)』建立一个以其pid
为名的目录用来保存进程的相关信息,而其子目录fd保存的是该进程打开的所有文件的fd(fd:filedescriptor)。

kill进程是通过截断proc文件系统中的文件可以强制要求系统回收分配给正在使用的的文件
这是一项高级技术,仅到管理员确定不会对运行中的进程造成影响时使用。应用程序对这种方
支持的并不好,当一个正在使用的文件被截断可能会引发不可预知的问题

所以我还是采用停应用来解决

restart oracle数据库,发现/home/oracle/admin/dbticb/bdump/alert_dbticb.log对应的空间被释放

在查看磁盘空间的使用情况,发现空间已经回收了

[root@ticketb ~]# df -h
FilesystemSize Used Avail Use% Mounted on
/dev/sda1981M 203M 729M 22% /
none16G 0 16G 0% /dev/shm
/dev/sda92.9G 37M 2.7G 2% /tmp
/dev/sda74.9G 1.9G 2.7G 42% /usr
/dev/sda82.9G 145M 2.6G 6% /var
/dev/mapper/vghome-lvhome
20G 2.6G 16G 15% /home
/dev/mapper/vgoradata-lvoradata
144G 48G 90G 35% /u01/oradata
/dev/mapper/vgbackup-lvbackup
193G 7.8G 175G 5% /u01/backup


ok问题解决,然后做下收尾工作即可

-------------------------------------------------------------------------------------------------


4.2、我用:ll /proc/pid/fd,查看了下这目录的文件,很多全是红色高亮的文件,而且是被标注为已经被删除了的


4.3、我又使用命令 :lsof | grep deleted查询了下被删除而没被及时收回空间的文件

4.4、在确认没有用的情况下kill -9 pid直接杀掉进程,删除部分进程后,top系统,cpu使用率下降不少,继续将其他被删除文件清理出进程。

4.5、cpu太平了,降到1%以下,负载的数值也从原来的40降到了0.X。

不过有个问题是:有两个文件标注了被删除的,但是指向的软连接却是现在用起的应用下的文件,查了下现在应用的进程号和被删除进程好对比,两者不同,我就将其直接kill掉,却发现运行中的应用程序挂了,重启应用程序后,在 lsof | grep deleted 依然有那文件,也是标注被删除文件,进程号都一致了,关掉相应应用程序,查看此文件也不在了,启动应用又出现,此文件是应用自动产生,没办法删除掉,确实还没解决这个问题??????

相关文章

Centos下搭建性能监控Spotlight
CentOS 6.3下Strongswan搭建IPSec VPN
在CentOS6.5上安装Skype与QQ
阿里云基于centos6.5主机VPN配置
CentOS 6.3下配置multipah
CentOS安装、配置APR和tomcat-native