关于DMS timeout及SRC halt a node



从HACMP System Administration I: Planning and Implementation


10-20 Clstrmgr starved of CPU
  (某种应用程序的优先级大于 clstrmgr deamon , 导致 clstrmgr 无法正常重置 DMS 计数器)


10-26 SRC halts a node
            Under what circumstances does the SRC halt a node
            – The cluster manager was killed or has crashed



Proving that SRC halted a node:

– Check the AIX error log

- Look for abnormal termination of clstrmgr daemon


想问的是,如果clstrmgr 被killed了或hang了,那么也不会去重置DMS计数器,那么是SRC来halt node呢,还是 DMS来halt node?

作者: hbsbjerry   发布时间: 2011-05-16



从当时的error log中看到kernel_panic,之前在哪个官方文档上看到(不记得了)DMS timeout会有kernel_panic的记录。这里看到有提到“SOFTWARE PROGRAM ABNORMALLY TERMINATED”,不知道是不是指的是clstrmgrES;所有很有些confused,这次halt到底是 clstrmgrES被killed掉了导致 SRC halt呢,还是DMS timeout而导致halt呢

LABEL:                KERNEL_PANIC
IDENTIFIER:        225E3B63

Date/Time:       Sun Feb 27 10:17:01 2011
Sequence Number: xxxxxx
Machine Id:      00xxxxxxxx00
Node Id:         node_a
Class:           S
Type:            TEMP
WPAR:            Global
Resource Name:   PANIC

Description
SOFTWARE PROGRAM ABNORMALLY TERMINATED

        Recommended Actions
        PERFORM PROBLEM DETERMINATION PROCEDURES

Detail Data
ASSERT STRING

PANIC STRING
RSCT Dead Man Switch Timeout for HACMP; halting non-responsive node
想问的是,如果clstrmgr 被killed了或hang了,那么也不会去重置DMS计数器,那么是SRC来halt node呢,还是 DMS来halt node?


这个问题提问的背景源于一次生产系统停机——应用跑在节点B上,节点B因硬件故障宕机,节点A因disk reserve的原因没有接管成功;等系统管理员查看的时候,发现节点A上的clstrmgrES处于ST_INIT状态。对于节点A上PowerHA服务停止的原因,IBM level2给的解释,说因为defects(IZ75959, IZ77347),fuser killed hacmp daemons by mistake 从而导致了 DMS timeout从而halt该node(HA的stop.sh脚本中有 fuser脚本,但是和HA所在路径没有关系)


可是我读了info center,如果因为kill了clstrmgr,则会在errpt中记录有clexit.rc : Unexpected termination of clstrmgrES,可我没有在errpt中找到类似的clstrmgrES异常terminate的信息;
因此考虑是否有其他原因导致了DMS timeout?或导致了这次节点halt

如果有达人愿帮助做深入分析,我可以提供snap日志包

作者: hbsbjerry   发布时间: 2011-05-16

达人们今天都去做神马鸟?~~~```

作者: hbsbjerry   发布时间: 2011-05-16