RDQM IBM Pacemaker问题-HA队列管理器未在应有的位置运行

问题描述

我正面临一些奇怪的RDQM行为。 我们有3台服务器(node1:主服务器,node2和node3:辅助服务器)。在首选位置为node1和node2的主节点上创建4个每个1G的QM。 由于某些问题(我认为是连接问题),在节点3上将1个QM切换为主数据库。起搏器指示node3是其主节点,其他节点是从节点。我尝试重新启动node3,但是只要它可访问,QM就会切换回node3。

我尝试用其他质量管理重现问题,但是这是不可能的。 您认为问题的根源是什么?

解决方法

高可用性队列管理器无法在您可能希望的节点上运行的原因有很多,常见的原因是资源操作失败。如果您运行crm status命令,则可能会看到“失败的资源操作”部分,其中详细介绍了阻止队列管理器在其首选节点上运行的失败的资源操作。

我的其余回答均假定您确实执行了失败的资源操作(即,您看到了“失败的资源操作”部分)。

阅读周围的文字有时会提示您您有需要解决的潜在问题。有时,在操作失败时,可以从syslog或dmesg中找到有关潜在问题的更多线索。如果失败的资源操作具有“退出”现象,请尝试在系统日志和dmesg中搜索部分文本。

一旦您解决了所有未解决的问题(如果有),请通过运行crm resource cleanup RESOURCE清除失败的资源操作,将“ RESOURCE”替换为失败的资源的名称(例如'p_fs_haqm1'或'haqm1'。失败的资源操作名称前会加上资源名称的前缀)。可能有多个失败的资源,因此您将需要为每个资源发出命令。请注意,如果未解决根本问题,则该操作可能会再次失败,可以通过重新发出crm status来看到。

有关更多信息,请访问https://www.ibm.com/support/knowledgecenter/SSFKSJ_latest/com.ibm.mq.tro.doc/q133450_.htm(请记住将“更改版本或产品”更改为MQ版本),您将在其中找到标题为“ Pacemaker场景2:RDQM HA队列管理器未在应运行的位置”的部分。 ”,这比我的答案要详细得多。

,

我终于能够解决问题,请确认以下信息。

这是网络问题。仲裁失败了,我们不得不手动进行干预以解决问题。

以下是采取的措施:

  • drbdadm在所有服务器上断开mq6#
  • 主节点上的crm资源清理mq6#
  • drbdadm在所有服务器上连接mq6#

我能够以这种方式解决问题。