- 相關(guān)推薦
計(jì)算機(jī)網(wǎng)絡(luò)故障管理智能化研究
[論文摘要] 故障是網(wǎng)絡(luò)的管理最基本、最重要的功能。文中針對(duì)網(wǎng)絡(luò)故障管理進(jìn)行研究,并提出了網(wǎng)絡(luò)故障管理智能化的方法,為網(wǎng)絡(luò)故障智能化的進(jìn)一步發(fā)展奠定了基礎(chǔ)。
[論文關(guān)鍵詞] 網(wǎng)絡(luò) 故障 智能化 事件知識(shí)庫(kù)
一個(gè)網(wǎng)絡(luò)管理系統(tǒng)有五大功能域:故障管理、配置管理、性能管理、計(jì)費(fèi)管理和安全管理其中,故障管理是最基本,也是最重要的功能。目的是保證網(wǎng)絡(luò)能夠連續(xù)可靠地運(yùn)行。如果網(wǎng)絡(luò)服務(wù)意外中止,將會(huì)對(duì)生產(chǎn)、生活造成很大影響,這就需要一套科學(xué)的故障管理策略,及時(shí)發(fā)現(xiàn)故障、排除故障。
現(xiàn)在一些網(wǎng)管軟件趨向于將專家系統(tǒng)等人工智能技術(shù)引入到網(wǎng)絡(luò)故障診斷和排除中。提高網(wǎng)絡(luò)故障的智能水平有助于網(wǎng)絡(luò)高效、可靠地運(yùn)行。網(wǎng)絡(luò)管理的智能化也是發(fā)展的必然趨勢(shì)。為此本文針對(duì)網(wǎng)絡(luò)故障智能化管理進(jìn)行研究,并提出了建立事件知識(shí)庫(kù)提高故障管理的智能水平的方法,為網(wǎng)絡(luò)故障智能化的進(jìn)一步發(fā)展奠定了基礎(chǔ)。
1. 計(jì)算機(jī)網(wǎng)絡(luò)故障管理技術(shù)研究
(1) 故障管理概述
故障是指軟、硬件的缺陷;錯(cuò)誤則是軟硬件的不正確輸出;失效是指所有和某故障有關(guān)的錯(cuò)誤造成的網(wǎng)絡(luò)的非正常運(yùn)行。網(wǎng)絡(luò)故障按生命周期可分為永久故障、暫時(shí)故障和瞬間故障三類;按故障對(duì)網(wǎng)絡(luò)造成的空間失效范圍的大小,可將失效分為四類:任務(wù)失效、基本網(wǎng)絡(luò)部件失效、 結(jié)點(diǎn)失效和子網(wǎng)失效。故障管理的主要任務(wù)是及時(shí)發(fā)現(xiàn)并排除網(wǎng)絡(luò)故障。一般說(shuō)來(lái),故障管理包括以下幾個(gè)內(nèi)容:故障監(jiān)測(cè)和捕獲故障產(chǎn)生相關(guān)的事件和報(bào)警;定位分析故障、記錄故障日志;如有可能排除故障等。
(2) 故障管理的類型
故障類型指的是具有某種特征的故障的分類。通常我們可以根據(jù)故障發(fā)生來(lái)源的不同,將它們劃分為兩大類,即硬故障(hard errors)和軟故障(soft errors)。
硬故障是指網(wǎng)絡(luò)的硬件設(shè)備在工作過(guò)程中產(chǎn)生的各種錯(cuò)誤。這些錯(cuò)誤與該設(shè)備的作用有密切關(guān)系,網(wǎng)絡(luò)系統(tǒng)的復(fù)雜性也正是由于設(shè)備的多樣性而體現(xiàn)出來(lái)的。根據(jù)這網(wǎng)絡(luò)設(shè)備的作用,我們也可以將故障簡(jiǎn)單分為以下三類:
、龠B接設(shè)備故障
這種故障的現(xiàn)象主要是網(wǎng)絡(luò)的連接出現(xiàn)問(wèn)題,也可以稱為通路故障。造成故障的原因可能是電纜線斷開(kāi)、收發(fā)器斷開(kāi)或不能正常工作以及其它連接設(shè)備間的接口出問(wèn)題等等。根據(jù)這類故障的來(lái)源不同,我們又可以將該類型的故障細(xì)分為線路故障、網(wǎng)絡(luò)接口故障、收發(fā)器故障、路由器故障等等,該類故障是故障管理的最主要對(duì)象。
、诠蚕碓O(shè)備故障
這種故障的表現(xiàn)是用于資源共享的設(shè)備出現(xiàn)問(wèn)題,不能提供或享受所需的服務(wù)。同樣,該類型的故障也可以細(xì)分為服務(wù)器故障(打印機(jī)故障、文件服務(wù)器故障等)、工作站故障等等。
、燮渌O(shè)備故障。包括電源故障、監(jiān)控器故障、測(cè)試儀故障、分析儀故障等等。
軟故障是指網(wǎng)絡(luò)系統(tǒng)軟件運(yùn)行出錯(cuò)。軟故障的發(fā)現(xiàn)和處理是在管理過(guò)程中逐漸被人們所認(rèn)識(shí)的,因?yàn)檐浖䦟儆谝环N無(wú)形的東西,問(wèn)題的表現(xiàn)不如硬件那么直觀。從這個(gè)意義上看,軟故障的識(shí)別和診斷更加困難。故障管理中所處理的軟故障主要針對(duì)與網(wǎng)絡(luò)通訊和服務(wù)有關(guān)的系統(tǒng)軟件,它可以直接根據(jù)網(wǎng)絡(luò)軟件來(lái)劃分,包括通訊協(xié)議軟件故障、網(wǎng)絡(luò)文件系統(tǒng)(FNS)故障、文件傳輸軟件故障、域名服務(wù)系統(tǒng)(DNS )等等,其中通訊協(xié)議軟件故障是系統(tǒng)研究的重點(diǎn)。這種錯(cuò)誤通常是在協(xié)議軟件運(yùn)行時(shí)遇到某個(gè)異常條件(如緩沖隊(duì)列滿)或協(xié)議軟件本身未提供可靠機(jī)制而導(dǎo)致傳輸失敗,報(bào)文丟失。
故障類型并不是一成不變的,隨著網(wǎng)絡(luò)在復(fù)雜性和規(guī)模上提高,網(wǎng)絡(luò)故障管理的要求也在不斷增加。新的技術(shù)、設(shè)備的應(yīng)用使故障的類型、故障原因、故障源等各方面都發(fā)生了變化,這就要求故障管理系統(tǒng)必須增加新的內(nèi)容。
(3)故障管理的功能
故障管理的根本目標(biāo)在于排除網(wǎng)絡(luò)中出現(xiàn)的各種故障,達(dá)到這一目標(biāo)要求系統(tǒng)至少必須具備檢測(cè)、隔離和糾正故障的能力。
故障檢測(cè)(detection)是指對(duì)系統(tǒng)的性能和狀態(tài)進(jìn)行檢查和測(cè)試,根據(jù)結(jié)果和一定的識(shí)別規(guī)則判斷系統(tǒng)是否故障。故障檢測(cè)要求管理系統(tǒng)監(jiān)視網(wǎng)絡(luò)的工作,考查網(wǎng)絡(luò)的狀態(tài)及其變化,一旦發(fā)現(xiàn)系統(tǒng)出現(xiàn)故障馬上進(jìn)行報(bào)警。
故障隔離(isolation)是指確定故障發(fā)生的位置,通俗地說(shuō)就是指出誰(shuí)發(fā)生了故障,如哪個(gè)子網(wǎng)、哪個(gè)設(shè)備或者設(shè)備的哪個(gè)部件,對(duì)于軟故障則指明哪個(gè)系統(tǒng)出了問(wèn)題。由于網(wǎng)絡(luò)是一個(gè)復(fù)雜的系統(tǒng),故障類型、原因、故障源多種多樣,而且不同故障的表現(xiàn)可能完全相同,這就導(dǎo)致了故障隔離的復(fù)雜性。隔離系統(tǒng)應(yīng)當(dāng)盡可能地縮小故障源的范圍。
故障糾正(correction)是指糾正所發(fā)生的錯(cuò)誤,恢復(fù)系統(tǒng)的正常工作。故障糾正建立在前兩者的基礎(chǔ)之上,目前所采取的手段除了進(jìn)行硬件維修、系統(tǒng)重啟、一定程度的恢復(fù)外,還包括一些非技術(shù)性的活動(dòng),如人員的使用和技術(shù)培訓(xùn)以及設(shè)備生產(chǎn)廠商的支持等。
(4)影響故障管理的因素
與網(wǎng)絡(luò)管理一樣,故障管理也必須考慮三方面的因素:過(guò)程、設(shè)備和工具、人員。成功的故障管理策略是這三者的完整結(jié)合,而不僅僅是其中的某一個(gè)方面。
過(guò)程主要指為實(shí)現(xiàn)故障管理功能而進(jìn)行的操作,下一節(jié)介紹的內(nèi)容就屬于故障管理的過(guò)程。了解管理的一般過(guò)程是開(kāi)發(fā)一個(gè)實(shí)用的故障管理系統(tǒng)的基礎(chǔ)。
設(shè)備和工具指的是進(jìn)行故障管理的軟硬件工具,包括故障檢測(cè)設(shè)備、維修設(shè)備、實(shí)用的故障管理系統(tǒng)等。設(shè)備和工具在故障管理中起著非常重要的作用,它可以幫助管理員和工程師實(shí)施管理功能,排除故障,保障網(wǎng)絡(luò)系統(tǒng)正常運(yùn)轉(zhuǎn)。下面介紹的就是幾種專用的物理設(shè)備:
① 時(shí)間域反射測(cè)量?jī)x(TDR)。通過(guò)顯示物理介質(zhì)傳輸信號(hào)的波形表明設(shè)備 或鏈路是否故障。
、 網(wǎng)絡(luò)監(jiān)視器。監(jiān)視網(wǎng)絡(luò)上各結(jié)點(diǎn)的狀態(tài),得到網(wǎng)絡(luò)的各種數(shù)字,以 確定是否故障。
、 網(wǎng)絡(luò)分析儀。實(shí)時(shí)分析結(jié)點(diǎn)的收發(fā)報(bào)文,幫助管理者跟蹤和隔離故障。 管理人員在故障管理中的任務(wù)主要是維護(hù)管理系統(tǒng)和工具的運(yùn)行,并在它們的幫助下完成故障排除和系統(tǒng)恢復(fù)工作。
2.智能化網(wǎng)絡(luò)的概述
為了能夠更有效地對(duì)各種大型復(fù)雜的網(wǎng)絡(luò)進(jìn)行管理,許多研究人員將人工智能技術(shù)應(yīng)用到網(wǎng)絡(luò)管理領(lǐng)域。雖然全面的智能化的網(wǎng)絡(luò)管理距離實(shí)際應(yīng)用還有相當(dāng)長(zhǎng)的一段路要走,但是在網(wǎng)絡(luò)管理的特定領(lǐng)域?qū)嵤┲悄芑,尤其是基于專家系統(tǒng)技術(shù)的網(wǎng)絡(luò)管理是可行的。
用于故障管理的專家系統(tǒng)由知識(shí)庫(kù)、推理機(jī)、知識(shí)獲取模塊和解釋接口四大主要部分組成。專家系統(tǒng)以其實(shí)時(shí)性、協(xié)作管理、層次性等特點(diǎn),特別適合用在網(wǎng)絡(luò)的故障管理領(lǐng)域。但同時(shí)專家系統(tǒng)也面臨一些難題:
(1)動(dòng)態(tài)的網(wǎng)絡(luò)變化可能需要經(jīng)常更新知識(shí)庫(kù)。
(2)由于網(wǎng)絡(luò)故障可能會(huì)相關(guān)到其它許多事件,很難確定與某一癥狀相關(guān)的時(shí)間的開(kāi)始和結(jié)束,解釋和綜合消息復(fù)雜。
(3)可能需要大量的指令用以標(biāo)識(shí)實(shí)際的網(wǎng)絡(luò)狀態(tài),并且專家系統(tǒng)需要和它們接口。
(4)專家系統(tǒng)的知識(shí)獲取一直以來(lái)是瓶頸所在,要想成功地獲取網(wǎng)絡(luò)故障知識(shí),需要經(jīng)驗(yàn)豐富的網(wǎng)絡(luò)專家。
在實(shí)現(xiàn)智能化網(wǎng)絡(luò)管理系統(tǒng)時(shí),還必須把握系統(tǒng)復(fù)雜性與系統(tǒng)性能的關(guān)系。不僅要利用將較為成熟的人工智能技術(shù),而且要考慮實(shí)現(xiàn)上的復(fù)雜度和引入人工智能技術(shù)對(duì)系統(tǒng)性能和穩(wěn)定性的影響。
3.事件知識(shí)庫(kù)的研究
在專家系統(tǒng)中,知識(shí)的表示有表示法、語(yǔ)義網(wǎng)絡(luò)表示法、規(guī)則表示法、特性表示法、框架表示法和過(guò)程表示法。產(chǎn)生式表示法,即規(guī)則表示法,是最常見(jiàn)的一種表示法。其特點(diǎn)是模塊性、一致性和自然。知識(shí)庫(kù)是知識(shí)的集合,嚴(yán)格意義上的知識(shí)庫(kù)包括概念、事實(shí)和規(guī)則只部分,缺一不可。
為了提高故障管理的智能水平,可以建立事件知識(shí)庫(kù)(EKB , Event Knowledge Base,用于存儲(chǔ)所有己知事件的類型、產(chǎn)生事件的原因和所造成的影響,以及應(yīng)該采取什么樣的措施等一些細(xì)節(jié)的靜態(tài)描述。這個(gè)EKB并不是真正意義上的知識(shí)庫(kù),它的數(shù)據(jù)僅僅包含了屬性值與元組,而屬性值表示概念,元組表示事實(shí)。但研究EKB可以為今后建立完善的知識(shí)庫(kù)奠定基礎(chǔ)。
在EKB中存儲(chǔ)了己經(jīng)確定事件。最初,被確定的事件僅限于一些標(biāo)準(zhǔn)事件和措施。隨著網(wǎng)絡(luò)的運(yùn)行和系統(tǒng)的反饋,EKB的內(nèi)容將不斷增加。
理想狀態(tài)是能夠確定所有的事件。
下面是EKB涉及到的只種基本的數(shù)據(jù)庫(kù)表:
(1)事件類型表:該表中主要存儲(chǔ)了事件的靜態(tài)定義。
EKB中保存了己確定的事件可能涉及的相關(guān)知識(shí),如事件類別(如:性能、系統(tǒng)、網(wǎng)絡(luò)、應(yīng)用事件或其它)、嚴(yán)重程度(如:嚴(yán)重、主要、 次要、 警告等)、產(chǎn)生事件的設(shè)備標(biāo)識(shí)、指明設(shè)備的類型、事件造成什么影響(如:影響網(wǎng)速、單個(gè)用戶不能訪問(wèn)等)、故障排除參考策略、上次更新的時(shí)期/時(shí)間、關(guān)于這個(gè)事件的備注信息、事件的詳細(xì)描述等。
(2)實(shí)時(shí)事件表:描述了正在運(yùn)行的網(wǎng)絡(luò)中的實(shí)時(shí)事件。
實(shí)時(shí)事件表中提供可能用的一些字段,用于記錄網(wǎng)絡(luò)運(yùn)行中發(fā)生的事件,如:設(shè)備的 ID(從 IP 地址或查詢?cè)O(shè)備表可以獲得)、實(shí)時(shí)事件的狀態(tài)(如:新增、確認(rèn)、清除等)、根據(jù)故障票ID獲得的相應(yīng)的故障票信息等。
(3)設(shè)備信息表:存儲(chǔ)了網(wǎng)絡(luò)中設(shè)備的實(shí)際參數(shù)。
設(shè)備信息表主要記錄了每個(gè)設(shè)備的相關(guān)參數(shù)。例如,設(shè)備ID號(hào)、IP地址、設(shè)備名稱、廠商、類型、重要性級(jí)別等。
EKB中存儲(chǔ)的相關(guān)事件的知識(shí)主要來(lái)源于專家。開(kāi)發(fā)人員將獲得的知識(shí)應(yīng)用到與故障管理相關(guān)的系統(tǒng)中,根據(jù)不同系統(tǒng)的需要分配相應(yīng)的知識(shí),以提高系統(tǒng)性能。雖然EKB并不是嚴(yán)格意義上的知識(shí)庫(kù),但在開(kāi)發(fā)過(guò)程中,可以通過(guò)不斷地增加和修正EKB的內(nèi)容,在一定程度上提高系統(tǒng)的智能水平。
4.結(jié)論
文中分析了網(wǎng)絡(luò)故障的類型,提出將事件知識(shí)庫(kù)用于網(wǎng)絡(luò)故障的智能管理。實(shí)驗(yàn)表明,計(jì)算機(jī)網(wǎng)絡(luò)故障的智能管理提供了基于知識(shí)的決策手段,比傳統(tǒng)的管理方式具有更高的決策水平,為專家系統(tǒng)技術(shù)在故障的檢測(cè)和隔離方面更加廣泛的應(yīng)用,奠定了一定基礎(chǔ)。
參考文獻(xiàn):
[1] 趙志囡等.計(jì)算機(jī)網(wǎng)絡(luò)中的服務(wù)[M]. 現(xiàn)代情報(bào).2006. (11)
[2] 楊家海等.網(wǎng)絡(luò)管理原理與實(shí)現(xiàn)技術(shù)[M].北京:清華大學(xué)出版社.2000.
[3] 武波,馬玉祥著.專家系統(tǒng)(修訂版)[M].北京:北京理工大學(xué)出版社,2001.
【計(jì)算機(jī)網(wǎng)絡(luò)故障管理智能化研究】相關(guān)文章:
計(jì)算機(jī)網(wǎng)絡(luò)故障管理智能化論文11-22
當(dāng)前網(wǎng)絡(luò)故障排除方法研究03-08
無(wú)線傳感器網(wǎng)絡(luò)故障檢測(cè)研究11-22
關(guān)于綠色建筑智能化研究論文05-22
計(jì)算機(jī)網(wǎng)絡(luò)故障的處理及維護(hù)方法探討06-05
計(jì)算機(jī)技術(shù)在機(jī)房管理中的應(yīng)用研究03-08
當(dāng)前建筑智能化工程管理的現(xiàn)狀及特點(diǎn)03-10
高職院校計(jì)算機(jī)信息管理專業(yè)建設(shè)與課程改革研究03-13
研究計(jì)算機(jī)病毒與防治03-20