關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略
對(duì)于故障原因未能及時(shí)明確的,事后根據(jù)故障時(shí)收集的信息進(jìn)行分析。數(shù)據(jù)中心技術(shù)人員的能力有限,可以召集行業(yè)內(nèi)專家、設(shè)備廠商人員對(duì)故障信息進(jìn)行分析,直到找到故障原因?yàn)橹埂3霈F(xiàn)網(wǎng)絡(luò)故障對(duì)數(shù)據(jù)中心是致命的打擊,下面是YJBYS小編收集關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略,希望對(duì)你有幫助!
數(shù)據(jù)中心是由大量電子設(shè)備搭建起來的復(fù)雜信息系統(tǒng),這些電子設(shè)備出現(xiàn)各種各樣的故障是不可避免的,尤其是網(wǎng)絡(luò)設(shè)備,就算是谷歌、臉譜、亞馬遜等這些互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心也難免會(huì)發(fā)生不少故障。
一旦網(wǎng)絡(luò)設(shè)備出現(xiàn)故障,往往大面積的業(yè)務(wù)就會(huì)受到影響。一方面我們要增加網(wǎng)絡(luò)設(shè)計(jì)的健壯性,關(guān)鍵節(jié)點(diǎn)部署冗余備份;另一方面要優(yōu)化處理網(wǎng)絡(luò)故障的手段,當(dāng)出現(xiàn)網(wǎng)絡(luò)故障時(shí),如何快速恢復(fù)、并定位問題,消除隱患都需要諸多專業(yè)技術(shù)知識(shí)和豐富的網(wǎng)絡(luò)經(jīng)驗(yàn),同時(shí)制定完善的故障處理流程,這樣能大大縮短故障恢復(fù)的時(shí)間,同時(shí)還能有效找到故障原因,避免類似問題下次出現(xiàn)。
數(shù)據(jù)中心網(wǎng)絡(luò)出了故障并不可怕,可怕的是故障后長時(shí)間無法恢復(fù),可怕的是故障恢復(fù)后,依然不知道產(chǎn)生故障的原因,這樣數(shù)據(jù)中心網(wǎng)絡(luò)在不采取任何防護(hù)措施的情況下,繼續(xù)運(yùn)行可能出現(xiàn)二次故障,所以制定詳細(xì)的網(wǎng)絡(luò)故障維護(hù)策略非常重要。一旦發(fā)生網(wǎng)絡(luò)故障,迅速找到故障原因,快速恢復(fù)業(yè)務(wù)。
俗話說“養(yǎng)兵千日,用兵一時(shí)”,平時(shí)不做足功課,出了故障必然處理起來毛手毛腳。在數(shù)據(jù)中心網(wǎng)絡(luò)日常管理中,要熟悉網(wǎng)絡(luò)運(yùn)行情況,并定期、準(zhǔn)確、迅速、簡單概括評(píng)估其運(yùn)行狀況,建立完善的檢修報(bào)告制度。維護(hù)人員要多學(xué)習(xí),多總結(jié),對(duì)網(wǎng)絡(luò)運(yùn)行的細(xì)節(jié)了如指掌。維護(hù)人員要對(duì)網(wǎng)絡(luò)設(shè)備的端口互連、組網(wǎng)配置、業(yè)務(wù)特點(diǎn)牢記,當(dāng)出現(xiàn)故障時(shí),腦海里即刻就能浮現(xiàn)出網(wǎng)絡(luò)拓?fù)洌收系奈恢,這可為搶修故障爭取寶貴時(shí)間。
如果遇到故障時(shí),還在確認(rèn)網(wǎng)絡(luò)設(shè)備端口互連關(guān)系,說明對(duì)網(wǎng)絡(luò)認(rèn)識(shí)還不夠深刻,這必然加長故障恢復(fù)的時(shí)間。同時(shí),維護(hù)人員要對(duì)網(wǎng)絡(luò)設(shè)備進(jìn)行周期性巡檢,并做詳細(xì)記錄,發(fā)現(xiàn)隱患及時(shí)修復(fù),避免故障影響面擴(kuò)大。維護(hù)人員需強(qiáng)化保養(yǎng)與監(jiān)測(cè),降低故障發(fā)生風(fēng)險(xiǎn),確保網(wǎng)絡(luò)能夠正常運(yùn)行。
也許數(shù)據(jù)中心日常網(wǎng)絡(luò)管理和維護(hù)工作開展都是非常規(guī)范的,但依然難免可能會(huì)發(fā)生網(wǎng)絡(luò)故障。出了故障,不要慌亂,要冷靜思考。仔細(xì)觀察故障現(xiàn)象,詳細(xì)了解故障相關(guān)情況,明確出錯(cuò)信息細(xì)節(jié),確定故障癥狀。明確故障發(fā)生前是否有人操作了網(wǎng)絡(luò)(70%的網(wǎng)絡(luò)故障與人為操作有關(guān))。如果沒有,再進(jìn)一步明確網(wǎng)絡(luò)故障的.位置,確認(rèn)故障的設(shè)備或鏈路,這時(shí)可以采用PING、TRACERT命令或相關(guān)工具快速確認(rèn)網(wǎng)絡(luò)故障位置。同時(shí),迅速收集故障設(shè)備信息。
維護(hù)人員根據(jù)故障發(fā)生的位置、故障基本信息,對(duì)故障產(chǎn)生原因進(jìn)行分析。若短時(shí)間內(nèi)看不出原因,要啟動(dòng)隔離故障預(yù)案。要再次確認(rèn)故障信息是否收集完整,避免有遺漏,否則日后可能分析不出故障原因。啟動(dòng)隔離故障預(yù)案,將故障隔離后,觀察業(yè)務(wù)是否逐漸恢復(fù),直到業(yè)務(wù)徹底恢復(fù)后,再進(jìn)行后續(xù)的問題分析。一旦預(yù)案失效,業(yè)務(wù)仍不見恢復(fù),需要啟動(dòng)緊急應(yīng)急措施,比如將業(yè)務(wù)轉(zhuǎn)移到另外數(shù)據(jù)中心上,或者災(zāi)備數(shù)據(jù)中心上,再次確認(rèn)業(yè)務(wù)是否完全恢復(fù)。這些故障預(yù)案在平時(shí)的網(wǎng)絡(luò)維護(hù)中應(yīng)該做一些故障演練、故障模擬測(cè)試,以免這些預(yù)案機(jī)制在真正故障來臨時(shí)失效。
對(duì)于故障原因未能及時(shí)明確的,事后根據(jù)故障時(shí)收集的信息進(jìn)行分析。數(shù)據(jù)中心技術(shù)人員的能力有限,可以召集行業(yè)內(nèi)專家、設(shè)備廠商人員對(duì)故障信息進(jìn)行分析,直到找到故障原因?yàn)橹。有些時(shí)候,為了快速恢復(fù)業(yè)務(wù),收集的信息不完善,或者設(shè)備記錄信息不完整,往往很難找到故障原因,不可能在找到原因之前將業(yè)務(wù)割回?梢栽诂F(xiàn)有的網(wǎng)絡(luò)中做一些模擬測(cè)試,找一找故障原因,還不行就得對(duì)可能故障的節(jié)點(diǎn)進(jìn)行優(yōu)化或者更換,然后召集各類專家保障,再擇機(jī)將業(yè)務(wù)割回,進(jìn)行觀察。割回后一旦故障復(fù)現(xiàn)或者運(yùn)行一段時(shí)間后再次出現(xiàn),各路專家及時(shí)出手,排查故障原因。這個(gè)過程也許要經(jīng)歷過數(shù)次,最終才會(huì)找到故障原因,數(shù)據(jù)中心不允許將隱患留在網(wǎng)絡(luò)中,不帶隱患運(yùn)行。
網(wǎng)絡(luò)故障處理完后,要進(jìn)行細(xì)致總結(jié)?船F(xiàn)有網(wǎng)絡(luò)中哪些地方需要優(yōu)化,維護(hù)人員哪些方面的技術(shù)要加強(qiáng),避免相同的故障再次在網(wǎng)絡(luò)中出現(xiàn)。對(duì)網(wǎng)絡(luò)故障進(jìn)行深刻總結(jié),全方位進(jìn)行巡檢,類似的隱患一律消除。這些工作做完后,要將故障排除過程文檔化,對(duì)所做的工作進(jìn)行文字記錄。文檔是排錯(cuò)寶貴經(jīng)驗(yàn)的總結(jié),是“經(jīng)驗(yàn)判斷和理論分析”這一過程中最重要的參考資料,比如要包括:故障現(xiàn)象描述及收集相關(guān)信息、故障發(fā)生原因解釋、本次排錯(cuò)的心得體會(huì)、后續(xù)網(wǎng)絡(luò)優(yōu)化工作、故障處理流程上是否存在瑕疵等,都要形成正式文檔后日后查閱。維護(hù)人員必須養(yǎng)成及時(shí)進(jìn)行故障排除的文檔記錄和經(jīng)驗(yàn)總結(jié)習(xí)慣,一方面是網(wǎng)絡(luò)維護(hù)工作的基本要求,另一方面也是自身提高排錯(cuò)技術(shù)的需要。同時(shí),還要對(duì)故障處理過程中,暴露出工作上的疏漏及時(shí)補(bǔ)救,優(yōu)化整個(gè)故障處理分析的過程。
在數(shù)據(jù)中心里,網(wǎng)絡(luò)故障不可避免,通過以上的故障維護(hù)策略步驟,可以大大減少重復(fù)網(wǎng)絡(luò)故障的發(fā)生。但是網(wǎng)絡(luò)故障產(chǎn)生是受到很多因素影響的,而且故障類型較多,要徹底消除是非常困難的,這是那些網(wǎng)絡(luò)技術(shù)實(shí)力非常雄厚的互聯(lián)網(wǎng)巨頭數(shù)據(jù)中心依然故障不斷的原因。隨著數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模越來越大,新的網(wǎng)絡(luò)技術(shù)越來越復(fù)雜,給網(wǎng)絡(luò)故障排查制造了極大的障礙,這樣更需要對(duì)網(wǎng)絡(luò)故障的維護(hù)策略進(jìn)行不斷地優(yōu)化和調(diào)整,以便適應(yīng)新的數(shù)據(jù)中心網(wǎng)絡(luò)環(huán)境。
【關(guān)于數(shù)據(jù)中心網(wǎng)絡(luò)故障維護(hù)策略】相關(guān)文章:
1.計(jì)算機(jī)網(wǎng)絡(luò)故障診斷及維護(hù)