Ejabberd正在使用所有可用的CPU,如何进行调试

问题描述

我在安装ejabberd时遇到问题,我正在努力弄清发生了什么。

几分钟(15-20分钟)后,我的CPU使用率达到了100%。没有明显的原因可以找到。从那里开始,整个CPU保持平坦。我已经尝试升级服务器的硬件,但是仍然无法处理负载。该服务器是一种非常现代的服务器,具有Xeon进程KVM虚拟化。 8核和32GB RAM,没有其他工作负载。

我试图运行etop,但是不起作用:

root @ collaboration:/#./usr/lib/erlang/lib/observer-2.9.4/priv/bin/etop -node ejabberd @ localhost Erlang / OTP 23 [erts-11.0.3] [源代码] [64位] [smp:8:8] [ds:8:8:10] [异步线程:1]

Eshell V11.0.3(用^ G中止) (etop @ collaboration)1> {“初始化在do_boot中终止”,{{badmatch,{error,nxdomain}},[{etop_tr,reader,1,[{file,“ etop_tr.erl”}},{line,62} ]},{etop,init_data_handler,1,[{file,“ etop.erl”}},{line,146}]},{etop,start,1,[{file,“ etop.erl”},{line, 129}]},{init,start_em,1,[]},{init,do_boot,3,[]}]}}} init终止于do_boot({{badmatch,{error,nxdomain}},[{etop_tr,reader,1,[{},{}]}},{etop,init_data_handler,1,[{},{}]},{etop,开始,1,[{},{}]}},{init,start_em,1, do_boot,3,[]}]})

崩溃转储被写入:erl_crash.dump ...完成

我的错误日志中有许多奇怪内容的条目。我怀疑我的数据库基本上没有处于健康状态。数据库已有10年的历史,并且进行了许多升级,因此出现问题的可能性很高。可下载的error.log此处:https://fil.email/u1U0Y1wu

Pastebin extracts from error.log: https://pastebin.com/umpf51aU

最近我升级到ejabberd 20.07,并且尝试应用所有MySQL模式更新等。由于日志中存在问题的痕迹,因此无法达到我希望的效果。这里的这个至少失败了:https://docs.ejabberd.im/admin/upgrade/from_19.05_to_19.08/

root @:〜#mysql -u ejabberd ejabberd -p

ALTER TABLE用户修改server_host varchar(191)NOT NULL; ALTER TABLE最后一个修改server_host varchar(191)NOT NULL; ALTER TABLE rosterusers修改server_host varchar(191)NOT NULL; ALTER TABLE名册组修改server_host varchar(191)NOT NULL; 更改表sr_group修改server_host varchar(191)NOT NULL; 更改表sr_user修改server_host varchar(191)NOT NULL; ALTER TABLE假脱机修改Server_host varchar(191)NOT NULL; ALTER TABLE归档文件修改server_host varchar(191)NOT NULL; 更改表archive_prefs修改server_host varchar(191)NOT NULL; ALTER TABLE vcard修改server_host varchar(191)NOT NULL; ALTER TABLE vcard_search修改server_host varchar(191)NOT NULL; 更改表privacy_default_list修改server_host varchar(191)NOT NULL; 更改表privacy_list修改server_host varchar(191)NOT NULL; 更改表private_storage修改server_host varchar(191)NOT NULL; 修改表roster_version修改server_host varchar(191)NOT NULL; ALTER TABLE muc_room修改server_host varchar(191)NOT NULL; ALTER TABLE muc_registered修改server_host varchar(191)NOT NULL; ALTER TABLE muc_online_room修改server_host varchar(191)NOT NULL; ALTER TABLE muc_online_users修改server_host varchar(191)非空; ALTER TABLE motd修改server_host varchar(191)NOT NULL; ALTER TABLE sm修改server_host varchar(191)非空; ALTER TABLE route MODIFY server_host varchar(191)NOT NULL; 更改表push_session修改server_host varchar(191)NOT NULL; ALTER TABLE mix_pam修改server_host varchar(191)NOT NULL; 紧急行动 输入密码: 第1行出现错误1054(42S22):“用户”中的未知列“ server_host”

由于我对为什么遇到所有CPU问题一无所知,因此我打算删除数据库并在新安装的服务器上导入备份。我将如何导出尽可能多的健康数据并将其导入新数据库?最好至少导出用户密码和名册。没有MUC房间或类似房间。如果可能的话,应迁移SSL证书(ACME),因为letsencrypt对一直要求新证书的请求不太满意。如果您对此问题有任何指导,我将非常高兴!

仅上述日志和负载的FYI,我就有155个在线用户,12500个注册用户。

解决方法

从您的日志中:

exception exit: {undef,[{xmpp_stream_out,stop_async,[<0.4108.0>],[]},

此处erlang报告存在未定义的函数(未在源代码中定义)。

查看源代码,该功能在xmpp 1.4.6中定义: https://github.com/processone/xmpp/commit/c23e66ebac8fdec4aa08c8926091b0dcf6dacf22

在ejabberd 20.04中将其用法添加到ejabberd https://github.com/processone/ejabberd/commit/1bd560f3f25d0a644bac3d06904ca97e20a6f7d9

因此,最初看起来您正在运行的是 ejabberd 20.04或更高版本,但是使用的是 xmpp 库的版本早于1.4.6

,

基于@Badlop响应,通过安装新的erlang-p1-xmpp解决了该问题。出于某种原因,apt遇到一个依赖问题,认为安装的软件包比不稳定的存储库中的软件包要新。

root @ collaboration:〜/ download#dpkg -i erlang-p1-xmpp_1.4.9-1_amd64.deb dpkg:警告:降级 erlang-p1-xmpp从1:1.2.8-0.1〜afa100到1.4.9-1(正在读取数据库 ...当前安装的105425文件和目录。) 解压缩erlang-p1-xmpp_1.4.9-1_amd64.deb ...解压缩erlang-p1-xmpp (1.4.9-1)超过(1:1.2.8-0.1〜afa100)...设置erlang-p1-xmpp (1.4.9-1)...

我将查看是否可以为debian中的代表提交错误报告以解决此问题。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...