怎么排除服務器中RAID5故障
但是,對HP的一些老服務器(如HP LH6000)數(shù)據(jù)的恢復與新服務器(如HP ProLian系列服務器)的數(shù)據(jù)恢復是不同的。所以不同的服務器對RAID 5故障的處理也是不同的。曾接觸過兩臺服務器因意外斷電而造成的RAID 5陣列卡數(shù)據(jù)故障,由于采用了不同的策略而解決了問題。
故障修復
一臺是HP LH6000的服務器,4塊18GB的硬盤做成RAID 5磁盤陣列,其陣列卡是NetRaid;另一臺是HP ProLian ML370服務器,4塊146GB的硬盤做成RAID 5磁盤陣列,其陣列卡是Smart Array 642并帶有熱備份硬盤(Hot Spare)。兩者操作系統(tǒng)都為Window 2000,數(shù)據(jù)庫是Server 2000。
HP LH6000的故障如下: 一塊硬盤紅燈閃亮,機器還在正常運行,但沒有多久,系統(tǒng)就不能正常運行,這時才發(fā)現(xiàn)另一塊硬盤的紅燈也在閃亮。
解決辦法如下:
1.啟動服務器,自檢至陣列時按Ctrl+M進入NetRaid管理程序。查看陣列信息,發(fā)現(xiàn)硬盤狀態(tài)為Failed,運用修改配置將一硬盤強行設置成OnLine。重新啟動服務器,在進入系統(tǒng)前的硬件自檢時無效,啟動失敗。
2.啟動服務器,自檢至陣列時按Ctrl+M進入NetRaid管理程序。選擇磁盤陣列,將原來OnLine掛起來的硬盤手工Fail掉,然后再把另一塊Failed的硬盤手工設置成OnLine,重新啟動服務器就可以進入系統(tǒng)了。
3.查看系統(tǒng)及數(shù)據(jù)庫都運行正常后,再進陣列配置工具把Failed的硬盤手工設置成Rebuild,100%完成重建后再重啟服務器,所有的陣列及系統(tǒng)都恢復原狀了。
另一臺運行ERP系統(tǒng)的服務器(HP ProLiant ML370),由4塊146GB熱插拔硬盤通過RAID卡(Smart array陣列卡)配置成一臺具有RAID 5級的磁盤陣列。其中一塊硬盤在運行過程中突然出現(xiàn)故障。服務器RAID 5自動啟用熱備份硬盤(Hot Spare),對損壞硬盤進行邏輯替代。整個硬盤的數(shù)據(jù)訪問任務仍然完整地運行在原來的讀寫進程序列中,應用程序和數(shù)據(jù)庫沒有發(fā)生影響。
通過HP自帶的ACU工具查看硬盤狀態(tài)進行檢查,發(fā)現(xiàn)紅燈示警的硬盤處于脫機狀態(tài)。如果HP ProLiant服務器中的Raid 5有兩塊硬盤出現(xiàn)亮紅燈時,表明系統(tǒng)已經(jīng)崩潰,數(shù)據(jù)庫也就不能訪問,但系統(tǒng)不會自動關機。當?shù)诙䦃K硬盤亮紅燈后,用常規(guī)的手段是不能恢復數(shù)據(jù)的,只有付費找專業(yè)的.第三方數(shù)據(jù)恢復公司恢復數(shù)據(jù)。
因此,對惠普老型號HP LH6000系列服務器來說,陣列的設計方面與現(xiàn)在HP ProLiant系列服務器的陣列有很多不同。就操作方法看,HP LH6000服務器的陣列操作方法有很多可選項,包括陣列失敗后可以重新刪除陣列并重建等,初始化也是手工選擇的。但是HP ProLiant系列服務器陣列的初始化是在配置陣列后自動在后臺執(zhí)行的,所以ProLiant系列服務器在陣列出錯后是不能重配陣列的。
HP LH6000服務器會因其他意外的原因?qū)е玛嚵兄械拇疟P出現(xiàn)掉線現(xiàn)象,可讓維護人員手工選擇用Online或Offline、Rebuild等來恢復數(shù)據(jù)。但是現(xiàn)在的HP ProLiant系列服務器在陣列中不會再出現(xiàn)像老的服務器那樣有磁盤掉線的現(xiàn)象,所以硬盤亮紅燈的時候,這塊硬盤基本上是損壞了需要更換。當然可以選擇熱插拔硬盤來重建(Rebuild),看硬盤還能不能再用一段時間。
做好技術后備
從以上兩個例子可以看出,同一品牌、不同系列的服務器因其內(nèi)含技術的不同,其Raid 5磁盤故障的排除也是不同的。但經(jīng)過重建(Rebuild)數(shù)據(jù)后,數(shù)據(jù)被拯救了,從中可以得出以下經(jīng)驗:
我們認為任何先進的技術手段都不是萬無一失的。如果要確保數(shù)據(jù)安全,就一定要做好備份工作,最好每天做一次數(shù)據(jù)庫的異地備份。至少備用一塊新硬盤。需要指出的是,加入陣列的硬盤必須大于或等于故障硬盤的容量。
如果條件允許,推薦“RAID 5+熱備盤”的陣列創(chuàng)建方案。這樣在數(shù)據(jù)丟失前,我們有兩次更換硬盤的機會。對于一般的應用,只用RAID 5即可,可以同時提供數(shù)據(jù)的存取性能、可靠性和最大的磁盤空間。
管理員必須經(jīng)常觀察陣列的狀態(tài),包括查看磁盤陣列的黃色警告燈和管理軟件里的驅(qū)動器狀態(tài)。出現(xiàn)故障,及時排除。無論是什么級別的陣列,在排除故障前,都應做好數(shù)據(jù)備份。
【怎么排除服務器中RAID5故障】相關文章:
OSPF路由選擇故障排除05-11
網(wǎng)絡故障如何排除08-13
淺談網(wǎng)絡故障排除11-15
電工的故障排除技巧09-09
新手如何排除網(wǎng)絡故障08-17
企業(yè)網(wǎng)絡故障排除08-13
排除網(wǎng)絡故障的原則05-05
自己動手排除網(wǎng)絡故障11-10
如何排除網(wǎng)絡故障方法11-10