- 相關(guān)推薦
IT故障管理:亡羊補(bǔ)牢,不如未雨綢繆
隨著BYOD、云計(jì)算、大數(shù)據(jù)等新一代IT技術(shù)的發(fā)展,企業(yè)信息化應(yīng)用變得更加得心應(yīng)手,但I(xiàn)T運(yùn)維管理的壓力似乎并沒有減輕,反而面臨更大的挑戰(zhàn)。對(duì)于IT運(yùn)維主管來說,一場(chǎng)IT重大事故的發(fā)生,不僅會(huì)讓部門員工士氣低落,更容易讓上層領(lǐng)導(dǎo)懷疑IT部門的領(lǐng)導(dǎo)力和執(zhí)行力。因此,針對(duì)IT故障管理,更多希望改善自身狀況的IT部門,開始選擇主動(dòng)性的事前管理模式,而非被動(dòng)式的亡羊補(bǔ)牢。
英雄難過“故障關(guān)”
IT在很多時(shí)候都會(huì)充當(dāng)幕后英雄的角色,可如今的職場(chǎng)生存環(huán)境,對(duì)心臟不強(qiáng)健的運(yùn)維主管來說則是一個(gè)噩夢(mèng)。
一方面,作為公司的最高管理者,他們希望IT的能力越來越強(qiáng)大,變成無形的力量,因?yàn)镮T能消除公司內(nèi)部的摩擦,并且削減每筆交易的成本。另一方面,你永遠(yuǎn)不要相信他們可以做到絕對(duì)的平衡,如果重大的系統(tǒng)故障給整體收益帶來了影響,公司就會(huì)強(qiáng)調(diào)這個(gè)原因,強(qiáng)調(diào)公司發(fā)展受到了IT的拖累。
那么,IT故障是否能夠徹底消除呢?答案是否定的。任何系統(tǒng)都有出現(xiàn)故障的時(shí)候,它可能發(fā)生在IT資產(chǎn)生命周期的任何一個(gè)時(shí)段,包括了硬件、軟件和不可抗的自然因素。為此,企業(yè)必須要為自身定義一個(gè)可以接受的故障管理目標(biāo),將IT基礎(chǔ)設(shè)施故障對(duì)業(yè)務(wù)的影響減到最小,并防止與這些錯(cuò)誤相關(guān)的事故再度發(fā)生。
如果單從故障管理的目標(biāo)來看,人們力求找到引發(fā)事故的根源,然后才著手改善或糾正該情況。“這種做法固然無錯(cuò),但卻沒有行走在IT運(yùn)維管理最佳的流程上。
對(duì)此,北塔軟件表示:“故障管理的流程具有被動(dòng)和主動(dòng)兩個(gè)方面。被動(dòng)方面是作為對(duì)一個(gè)或多個(gè)事故的反應(yīng)而解決問題,而主動(dòng)的“故障管理”是指在事故發(fā)生前確定并解決問題和已知錯(cuò)誤。所以說,即使你現(xiàn)在‘救火’的事情再忙、再多,也應(yīng)當(dāng)去思考,并且馬上行動(dòng)起來,因?yàn)檫@種工作狀態(tài)非但不能給IT部門帶來改變,反而陷入一個(gè)惡性循環(huán)當(dāng)中。
“兩步走”實(shí)現(xiàn)未雨綢繆
如今,企業(yè)的IT架構(gòu)被多種新興技術(shù)改造,并與業(yè)務(wù)深度融為一體。這帶來了極度復(fù)雜的管理機(jī)制和故障發(fā)生機(jī)率,迫使IT部門不能滿足于傳統(tǒng)的故障識(shí)別及修復(fù)工作,而需要走在問題的前面。
未雨綢繆的益處世人皆知,但又要從何入手呢?針對(duì)這個(gè)問題,北塔軟件建議用戶采用如下兩個(gè)步驟實(shí)現(xiàn)“質(zhì)變”:
◆ 第一步:基礎(chǔ)設(shè)施監(jiān)控“泛化”
之前,由于網(wǎng)絡(luò)的龐大和后續(xù)累加,你可能無法知道IT系統(tǒng)中每個(gè)關(guān)鍵應(yīng)用承載設(shè)備在哪里,甚至不知道這些設(shè)備連接的應(yīng)用在哪個(gè)端口上。這時(shí)的IT運(yùn)維管理就等于“盲人摸象”,連最基本的“救火”都無法實(shí)現(xiàn)。所以,在這個(gè)階段,便需要利用具備手動(dòng)或自動(dòng)發(fā)現(xiàn)功能的運(yùn)維工具,迅速搜索整個(gè)網(wǎng)絡(luò)內(nèi)的所有節(jié)點(diǎn),實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的真實(shí)物理拓?fù)鋱D,實(shí)時(shí)反映出整個(gè)網(wǎng)絡(luò)的運(yùn)行狀態(tài)。
需要注意的是,在云計(jì)算或虛擬化運(yùn)行環(huán)境中,傳統(tǒng)的運(yùn)維工具已經(jīng)無力支撐這個(gè)目標(biāo)。此時(shí),用戶可以采用北塔BTIM等具備自動(dòng)感知虛擬和物理環(huán)境的新一代運(yùn)維平臺(tái),將虛擬交換機(jī)和虛擬機(jī)以“實(shí)體連接”的形式存在于監(jiān)控場(chǎng)景中,自動(dòng)追蹤數(shù)據(jù)和虛擬機(jī)漂移后的性能指標(biāo)。
◆ 第二步:業(yè)務(wù)管理“透明化”
一套業(yè)務(wù)系統(tǒng)的可用性,取決于每個(gè)基礎(chǔ)設(shè)施對(duì)象之間的配合和穩(wěn)定,但之前的基礎(chǔ)監(jiān)控?cái)?shù)據(jù)對(duì)于整套業(yè)務(wù)系統(tǒng)又能起到什么幫助呢?
在完成全網(wǎng)監(jiān)控的目標(biāo)后,用戶可以利用北塔BTIM自動(dòng)對(duì)監(jiān)控?cái)?shù)據(jù)從業(yè)務(wù)角度歸類整合,讓所有業(yè)務(wù)關(guān)鍵參數(shù)醒目地投射到業(yè)務(wù)架構(gòu)上,實(shí)時(shí)反映業(yè)務(wù)運(yùn)行情況。業(yè)務(wù)視圖的構(gòu)建,可以對(duì)外向業(yè)務(wù)部門,對(duì)內(nèi)給自身管理都提供透明化管理,能夠非常清晰地反應(yīng)出業(yè)務(wù)系統(tǒng)的健康指標(biāo)。而透明化的監(jiān)控業(yè)務(wù)系統(tǒng)運(yùn)行起來之后,能夠事前發(fā)現(xiàn)可能引起系統(tǒng)宕機(jī)故障,或者訪問質(zhì)量無法保障的問題,把可能發(fā)生故障的隱患消除在萌芽狀態(tài)。
IT運(yùn)維要給創(chuàng)新“留時(shí)間”
主動(dòng)運(yùn)維、事前運(yùn)維,這些具體工作實(shí)際上都在圍繞著“預(yù)防性檢查(PM)”展開,旨在提高系統(tǒng)的可用性、穩(wěn)定性。而IT部門的價(jià)值若想進(jìn)一步體現(xiàn),就不能總圍繞“救火員”的角色。因此,未雨綢繆的最終目的還是解放人力。
對(duì)此,北塔軟件表示:“追求IT創(chuàng)新不僅需要靈感,更要時(shí)間。用戶還可以利用北塔BTIM中的‘業(yè)務(wù)仿真、自動(dòng)巡檢’等功能替代人力操作,主動(dòng)找出可能會(huì)影響系統(tǒng)可用性和性能降低的原因。在這個(gè)平臺(tái)上,看似是一張簡(jiǎn)單的業(yè)務(wù)管理門戶圖,但卻可以緊密聯(lián)合并改善IT與業(yè)務(wù)部門之間的關(guān)系,在溝通中激發(fā)IT創(chuàng)新的靈感。”
【IT故障管理:亡羊補(bǔ)牢,不如未雨綢繆】相關(guān)文章:
機(jī)床機(jī)電故障排除與維護(hù)管理探討03-20
內(nèi)存故障分析03-05
Unix啟動(dòng)故障的處理03-19
常見的ADSL使用故障03-06
電腦內(nèi)存故障現(xiàn)象03-31
自檢失敗黑屏故障03-05
電腦黑屏故障分析03-05
交換機(jī)故障03-04
電腦電源常見的故障03-04