- 相關(guān)推薦
IBM認(rèn)證知識(shí):HACMP心跳檢測(cè)
與在許多其他類型的集群中一樣,心跳檢測(cè)用于監(jiān)視網(wǎng)絡(luò)接口、通信設(shè)備和 IP 標(biāo)簽(服務(wù)、非服務(wù)和持久 IP 標(biāo)簽)的可用性,從而監(jiān)視節(jié)點(diǎn)的可用性。
從 HACMP V5.1 開始,心跳檢測(cè)完全基于 RSCT 拓?fù)浞⻊?wù)(因而 HACMP V5.1 只是“Enhanced Scalability”版本;使用直接由集群管理器守護(hù)進(jìn)程監(jiān)視的傳統(tǒng)網(wǎng)絡(luò)接口模塊 (NIM) 的心跳檢測(cè)已不再使用)。
執(zhí)行心跳檢測(cè)的方法是通過每個(gè)通信接口或設(shè)備在集群中的節(jié)點(diǎn)之間交換消息(Keep Alive 數(shù)據(jù)包)。
每個(gè)集群節(jié)點(diǎn)以特定間隔向其他集群節(jié)點(diǎn)發(fā)送心跳信號(hào)消息,并預(yù)期以特定間隔接收來自對(duì)應(yīng)節(jié)點(diǎn)的心跳信號(hào)消息。如果消息接收停止,則 RSCT 將此情況視為故障,并告訴 HACMP,后者將采取適當(dāng)?shù)幕謴?fù)操作。
心跳信號(hào)消息可通過以下網(wǎng)絡(luò)發(fā)送:
TCP/IP 網(wǎng)絡(luò)點(diǎn)對(duì)點(diǎn)非 IP 網(wǎng)絡(luò)為了防止集群分割(split brain),HACMP 必須能夠區(qū)分節(jié)點(diǎn)故障和 TCP/IP 網(wǎng)絡(luò)故障。TCP/IP 網(wǎng)絡(luò)故障可能由有故障的網(wǎng)絡(luò)元素(交換機(jī)、集線器和電纜)導(dǎo)致;在這種情況下,集群中的節(jié)點(diǎn)不能通過 IP 發(fā)送和接收檢測(cè)信號(hào)消息(Keep Alive,KA),因此每個(gè)節(jié)點(diǎn)認(rèn)為對(duì)等節(jié)點(diǎn)發(fā)生了故障,并嘗試獲取資源。這具有潛在的數(shù)據(jù)破壞風(fēng)險(xiǎn),在使用并發(fā)資源時(shí)尤其是如此。
非 IP 網(wǎng)絡(luò)是節(jié)點(diǎn)之間的直接連接(點(diǎn)對(duì)點(diǎn)),并且不使用 IP 來進(jìn)行檢測(cè)信號(hào)消息交換,因此不太容易受到 IP 網(wǎng)絡(luò)元素故障的影響。如果使用了這些網(wǎng)絡(luò)類型,則在 IP 網(wǎng)絡(luò)發(fā)生故障的情況下,節(jié)點(diǎn)仍然能夠交換消息,因此得出的判斷是網(wǎng)絡(luò)故障,從而不執(zhí)行任何資源組活動(dòng)。
為了避免 HACMP 中發(fā)生分割,我們建議:
配置冗余網(wǎng)絡(luò)(IP 和非 IP)同時(shí)使用 IP 和非 IP 網(wǎng)絡(luò)。若要了解一個(gè)建議的兩節(jié)點(diǎn)集群配置,圖 3。
圖 3 HACMP 集群中的信號(hào)檢測(cè)
通過磁盤的信號(hào)檢測(cè)
通過磁盤的心跳檢測(cè) (diskhb) 是 HACMP V5.1 中引入的新功能,旨在提供預(yù)防集群分割的附加保護(hù)和簡(jiǎn)化的非 IP 網(wǎng)絡(luò)配置,尤其是用于太難或無法實(shí)現(xiàn) RS232、目標(biāo)模式 SSA 或目標(biāo)模式 SCSI 連接的環(huán)境。
此類網(wǎng)絡(luò)可以使用任何類型的共享磁盤存儲(chǔ)(光纖通道、SCSI 或 SSA),只要用于交換 KA 消息的磁盤是 AIX 增強(qiáng)并發(fā)卷組的一部分。用于信號(hào)檢測(cè)網(wǎng)絡(luò)的磁盤并不專門用于此目的;可以將它們用于存儲(chǔ)應(yīng)用程序共享數(shù)據(jù)(有關(guān)更多信息,請(qǐng)參見圖 3)。
客戶提出了使用目標(biāo)模式的光纖通道連接請(qǐng)求,但是由于異構(gòu)(非標(biāo)準(zhǔn)發(fā)起設(shè)備和目標(biāo)功能)的 FC 環(huán)境(適配器、存儲(chǔ)子系統(tǒng)、SAN 交換機(jī)和集線器),此方法很難實(shí)現(xiàn)和支持。
通過使用共享磁盤來交換消息,非 IP 網(wǎng)絡(luò)的實(shí)現(xiàn)更加可靠,并且不依賴所使用的硬件類型。
此外,在 SAN 環(huán)境中,當(dāng)使用光纖來連接設(shè)備時(shí),這種非 IP 連接的長(zhǎng)度具有與 SAN 相同的距離限制,
因而允許實(shí)現(xiàn)超長(zhǎng)的點(diǎn)對(duì)點(diǎn)網(wǎng)絡(luò)。
通過將某個(gè)磁盤定義為增強(qiáng)的并發(fā)卷組的一部分,該磁盤的一部分(扇區(qū))將不用于任何 LVM 操作,此磁盤部分將用于在兩個(gè)節(jié)點(diǎn)之間交換消息。
使用通過磁盤的信號(hào)檢測(cè)的規(guī)范如下:
一個(gè)磁盤可用于兩個(gè)節(jié)點(diǎn)之間的一個(gè)網(wǎng)絡(luò)。同時(shí)在兩個(gè)節(jié)點(diǎn)上使用 LVM 分配的物理卷 ID(physical volume ID,PVID)來標(biāo)識(shí)要使用的磁盤。用于磁盤信號(hào)檢測(cè)網(wǎng)絡(luò)的建議配置是在每個(gè)存儲(chǔ)機(jī)箱中將一個(gè)磁盤用于一對(duì)節(jié)點(diǎn)。要求將要使用的磁盤是某個(gè)增強(qiáng)并發(fā)卷組的一部分,雖然該卷組不一定要是活動(dòng)的或者是某個(gè)資源組(并發(fā)或非并發(fā))的一部分。唯一的限制在于,必須同時(shí)在兩個(gè)節(jié)點(diǎn)上定義該卷組(volume group,VG)。注意:增強(qiáng)并發(fā)卷組的集群鎖機(jī)制不使用保留磁盤空間來進(jìn)行通信(“傳統(tǒng)”版本的 clvmd 要使用保留磁盤空間);它改為使用 RSCT 組服務(wù)。
通過 IP 別名的心跳檢測(cè)
對(duì)于 IP 網(wǎng)絡(luò),現(xiàn)在引入了一個(gè)新的心跳檢測(cè)功能:通過 IP 別名的信號(hào)檢測(cè)。此功能是為不能或不適宜更改通信接口的基本 IP 地址的集群而提供的。
用于信號(hào)檢測(cè)的 IP 別名是在 HACMP 服務(wù)啟動(dòng)時(shí)在現(xiàn)有 IP 地址之外配置的。用于此目的的 IP 地址必須與現(xiàn)有的 IP 地址在完全不同的子網(wǎng)中,并且不應(yīng)該定義用于任何名稱解析(/etc/hosts、BIND 等等)。此配置不需要任何附加的可路由子網(wǎng)。
與使用基本/啟動(dòng) IP 地址來交換心跳信號(hào)消息不同,RSCT 使用 HACMP 定義的 IP 別名來為每個(gè)通信接口建立通信組(檢測(cè)信號(hào)環(huán))。
注意:在使用通過 IP 別名的心跳檢測(cè)時(shí),通信接口的基本/啟動(dòng) IP 地址由不由RSCT 拓?fù)浞⻊?wù)(從而由 HACMP)進(jìn)行監(jiān)視。通信接口將通過所分配的 IP 別名接受監(jiān)視。
即使使用此技術(shù),HACMP 仍然要求網(wǎng)絡(luò)上的所有接口(所有節(jié)點(diǎn)中的接口)能夠彼此通信(能夠彼此看到對(duì)方的 MAC 地址)。
用于 IP 別名的子網(wǎng)掩碼與用于服務(wù) IP 地址的子網(wǎng)掩碼相同。在定義用于信號(hào)檢測(cè)的 IP 地址時(shí),必須指定要用于信號(hào)檢測(cè)的起始地址,并且必須確保有足夠多與網(wǎng)絡(luò)上使用的現(xiàn)有子網(wǎng)不發(fā)生沖突的子網(wǎng)可用(節(jié)點(diǎn)中的每個(gè)物理通信接口對(duì)應(yīng)一個(gè)子網(wǎng))。
【IBM認(rèn)證知識(shí):HACMP心跳檢測(cè)】相關(guān)文章:
ibm認(rèn)證考試知識(shí)點(diǎn)06-13
IBM認(rèn)證項(xiàng)目01-12
IBM認(rèn)證考試流程01-12
IBM認(rèn)證的考試流程01-12
IBM認(rèn)證考試須知06-05
IBM Lotus認(rèn)證試題03-08
IBM認(rèn)證證書分類02-24
IBM/Notes認(rèn)證方式03-10
IBM認(rèn)證考試介紹01-19