关于DMS timeout及SRC halt a node

从HACMP System Administration I: Planning and Implementation

10-20 Clstrmgr starved of CPU
  (某种应用程序的优先级大于 clstrmgr deamon , 导致 clstrmgr 无法正常重置 DMS 计数器)

10-26 SRC halts a node
         Under what circumstances does the SRC halt a node
         – The cluster manager was killed or has crashed

Proving that SRC halted a node:

– Check the AIX error log

- Look for abnormal termination of clstrmgr daemon

想问的是，如果clstrmgr 被killed了或hang了，那么也不会去重置DMS计数器，那么是SRC来halt node呢，还是 DMS来halt node?

作者: hbsbjerry 发布时间: 2011-05-16

从当时的error log中看到kernel_panic，之前在哪个官方文档上看到（不记得了）DMS timeout会有kernel_panic的记录。这里看到有提到“SOFTWARE PROGRAM ABNORMALLY TERMINATED”，不知道是不是指的是clstrmgrES；所有很有些confused，这次halt到底是 clstrmgrES被killed掉了导致 SRC halt呢，还是DMS timeout而导致halt呢

LABEL:             KERNEL_PANIC
IDENTIFIER:       225E3B63

Date/Time:    Sun Feb 27 10:17:01 2011
Sequence Number: xxxxxx
Machine Id:    00xxxxxxxx00
Node Id:       node_a
Class:          S
Type:          TEMP
WPAR:          Global
Resource Name: PANIC

Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED

      Recommended Actions
      PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
ASSERT STRING

PANIC STRING
RSCT Dead Man Switch Timeout for HACMP; halting non-responsive node
想问的是，如果clstrmgr 被killed了或hang了，那么也不会去重置DMS计数器，那么是SRC来halt node呢，还是 DMS来halt node?

这个问题提问的背景源于一次生产系统停机——应用跑在节点B上，节点B因硬件故障宕机，节点A因disk reserve的原因没有接管成功；等系统管理员查看的时候，发现节点A上的clstrmgrES处于ST_INIT状态。对于节点A上PowerHA服务停止的原因，IBM level2给的解释，说因为defects（IZ75959, IZ77347），fuser killed hacmp daemons by mistake 从而导致了 DMS timeout从而halt该node（HA的stop.sh脚本中有 fuser脚本，但是和HA所在路径没有关系）

可是我读了info center，如果因为kill了clstrmgr，则会在errpt中记录有clexit.rc : Unexpected termination of clstrmgrES，可我没有在errpt中找到类似的clstrmgrES异常terminate的信息；
因此考虑是否有其他原因导致了DMS timeout？或导致了这次节点halt

如果有达人愿帮助做深入分析，我可以提供snap日志包

作者: hbsbjerry 发布时间: 2011-05-16

达人们今天都去做神马鸟？~~~```

作者: hbsbjerry 发布时间: 2011-05-16

关于DMS timeout及SRC halt a node

热门频道