圖一:高可用性管理要素構(gòu)成

不同的技術(shù)和管理領(lǐng)域中的風(fēng)險既符合疊加原理又符合短板原理。從最終使用者的角度來看,任何一個技術(shù)或者管理體系造成的停機(jī)時間都會被累加,而不會被區(qū)分原因。但是從系統(tǒng)建設(shè)管理的角度來看短板原理也十分明顯,如果一個系統(tǒng)每年會因為停電原因?qū)е聨资畟€小時的停機(jī),那么投入大量成本來避免可能兩年發(fā)生一次,每次造成15分鐘停機(jī)的網(wǎng)絡(luò)風(fēng)險無疑是不明智的。而各產(chǎn)品和設(shè)備廠商提出改進(jìn)可用性的方案往往都是從各自的技術(shù)領(lǐng)域出發(fā),既沒有統(tǒng)一標(biāo)準(zhǔn)也沒有通盤考慮,改進(jìn)方案往往也都是局部的,甚至在利益驅(qū)動下缺乏客觀的基礎(chǔ)。

建立可用性建設(shè)或改進(jìn)目標(biāo),建立測量體系,并通盤考量各系統(tǒng)可用性等級,按照對系統(tǒng)整體可用性影響的大小和費效比、時效比綜合安排各系統(tǒng)改進(jìn)計劃和改進(jìn)方案,分步實施并進(jìn)行持續(xù)的監(jiān)控和改進(jìn),可以使IT系統(tǒng)的可用性穩(wěn)定一致的滿足于業(yè)務(wù)需求,而且可測量的可用性指標(biāo)還可以作為衡量IT管理團(tuán)隊服務(wù)水平和質(zhì)量的標(biāo)準(zhǔn)之一。

那么如何從整體上考慮并規(guī)劃IT系統(tǒng)的高可用性呢,筆者根據(jù)IT規(guī)劃的一般規(guī)律和高可用性的特點提出以下方法:

一、設(shè)定IT系統(tǒng)可用性目標(biāo)

IT系統(tǒng)的可用性必須遵從于IT系統(tǒng)最終用戶的業(yè)務(wù)要求,從這個角度來看,IT系統(tǒng)的可管理性和成本控制首先應(yīng)依從于最終用戶對于可用性的要求。

在需求調(diào)研過程中,應(yīng)充分認(rèn)識到不同業(yè)務(wù)功能的重要程度差異、不同業(yè)務(wù)功能中斷對機(jī)構(gòu)戰(zhàn)略目標(biāo)實現(xiàn)的影響程度、非IT替代手段的可行性和非計劃中斷的必然性、機(jī)構(gòu)本身承受意外事件傷害的能力等方面因素,獲取業(yè)務(wù)部門和服務(wù)對象的支持和理解。最終分析取得各系統(tǒng)的最大可容忍中斷時間。在分析過程中,應(yīng)充分考慮機(jī)構(gòu)在經(jīng)濟(jì)損失、聲譽損失和社會責(zé)任缺失等方面造成的損害和其承受能力,設(shè)定承受能力的閾值。機(jī)構(gòu)在經(jīng)濟(jì)方面、聲譽和市場方面社會責(zé)任和法規(guī)遵從方面的損失會隨中斷時間的延長逐步擴(kuò)大,當(dāng)超過某一特定時間,各方面的累積損失將不可接受,會對機(jī)構(gòu)生存和戰(zhàn)略目標(biāo)達(dá)成構(gòu)成不可逆轉(zhuǎn)的影響,這個時間就是最大可容忍中斷時間。值得注意的是,最大可容忍中斷時間對不同的場景可能會有不同,一般而言不可抗力事件影響的公眾和市場容忍度較高,法律賠償方面影響較低,而人為責(zé)任事件公眾和市場容忍度較低,法律法規(guī)方面懲罰性措施也更嚴(yán)厲。

通過調(diào)研評估最終得出得到業(yè)務(wù)部門和最終用戶認(rèn)可的系統(tǒng)的可用性目標(biāo)=(約定服務(wù)時間-最大可容忍中斷時間)/約定服務(wù)時間*100%。

二、了解可用性保障水平的現(xiàn)狀

明確目標(biāo)之后,還應(yīng)該了解目前系統(tǒng)可用性水平的現(xiàn)狀,找出差距和不足。對于現(xiàn)狀的了解應(yīng)從兩個方面著手。一方面應(yīng)對目前的IT架構(gòu)和IT管理體系現(xiàn)狀進(jìn)行全面的了解和掌握(包括技術(shù)體系、邏輯關(guān)系、管理流程、管理制度、組織體系等)。為將來進(jìn)行針對性改建做好基礎(chǔ)準(zhǔn)備。另一方面應(yīng)充分了解目前IT系統(tǒng)的風(fēng)險環(huán)境狀況,通過歷史事件統(tǒng)計、信息安全管理風(fēng)險分析、基礎(chǔ)設(shè)施風(fēng)險環(huán)境分析和IT架構(gòu)技術(shù)風(fēng)險分析等,了解機(jī)構(gòu)信息系統(tǒng)面臨的威脅種類和發(fā)生概率,了解機(jī)構(gòu)對不同威脅的防范措施的有效性,了解不同種類風(fēng)險發(fā)生對機(jī)構(gòu)的危害和影響程度等。最終獲取按照風(fēng)險等級排列的威脅列表、針對已經(jīng)采取的防范措施有效性的評價列表,以及針對不同等級風(fēng)險的處置方式建議等。

三、確定高可用建設(shè)和管理策略

可用性規(guī)劃策略的制定應(yīng)充分考慮現(xiàn)有系統(tǒng)的狀況和資源狀況,充分考慮機(jī)構(gòu)的業(yè)務(wù)目標(biāo)和發(fā)展計劃,充分考慮技術(shù)現(xiàn)狀和發(fā)展趨勢,充分利用專業(yè)廠商的服務(wù)和資源共享,并結(jié)合IT整體規(guī)劃目標(biāo)制定IT系統(tǒng)可用性的實現(xiàn)和改進(jìn)策略。

可用性規(guī)劃的整體策略應(yīng)該包括:

四、設(shè)計IT系統(tǒng)高可用性改進(jìn)方案

IT系統(tǒng)可用性的改善和提高涉及技術(shù)和管理的各個領(lǐng)域,絕對不是一兩個單純的技術(shù)方案能夠?qū)崿F(xiàn)的。一般而言,可用性改進(jìn)的方案中應(yīng)至少包括:

管理體系改進(jìn)方案,包括:可用性規(guī)劃、執(zhí)行、檢查、改進(jìn)各環(huán)節(jié)的目標(biāo)、職責(zé)、流程和管理工具、管理方法,實現(xiàn)計劃、資源投入等,如果需要,根據(jù)策略要求管理體系中還應(yīng)包括災(zāi)備中心的管理體系整合。

技術(shù)體系改進(jìn)方案,包括:主機(jī)體系、網(wǎng)絡(luò)體系、存儲體系、應(yīng)用體系、安全監(jiān)控體系等各分子系統(tǒng)的改進(jìn)目標(biāo)、技術(shù)路線、資源獲取方式、成本估算等,如果需要還要根據(jù)策略要求規(guī)劃災(zāi)備中心的技術(shù)實現(xiàn)方案。

此外,根據(jù)實際情況可能還包括,機(jī)房基礎(chǔ)設(shè)施和服務(wù)資源獲取方案,信息安全管理體系改進(jìn)方案等。

設(shè)計方案完成后應(yīng)組織相關(guān)領(lǐng)域的專家對各方案的可行性、可管理性、技術(shù)成熟度、可擴(kuò)展性、可管理性、費效比等進(jìn)行評估和修訂。

五、高可用改進(jìn)方案的分步實現(xiàn)

一般而言,可用性的改進(jìn)計劃應(yīng)根據(jù)時效比和費效比排列優(yōu)先級,根據(jù)方案設(shè)定分類分階段招標(biāo),由專業(yè)廠商負(fù)責(zé)實施完成。對于復(fù)雜的可能需要多家專業(yè)廠商協(xié)作完成的綜合性項目,應(yīng)由熟悉整體規(guī)劃和項目管理專業(yè)技能的人員組建專業(yè)項目管理團(tuán)隊,在整個項目周期中協(xié)調(diào)和管理整個實施過程,保證項目的實施質(zhì)量和實施周期。

六、IT系統(tǒng)高可用性的維護(hù)和改進(jìn)

IT系統(tǒng)高可用性目標(biāo)的實現(xiàn)不是一兩個項目能夠完全解決的,隨著業(yè)務(wù)的發(fā)展和技術(shù)的變革,IT系統(tǒng)的邏輯架構(gòu)和功能,數(shù)據(jù)和配置信息以及其所處的風(fēng)險環(huán)境等都會處于不斷的變化當(dāng)中,必須建立起持續(xù)的監(jiān)控、改進(jìn)流程和相關(guān)的規(guī)范方法,才能夠保證系統(tǒng)的可用性目標(biāo)能夠得到保持并持續(xù)的改進(jìn)。

相關(guān)的維護(hù)和改進(jìn)工作至少應(yīng)包括:

高可用IT管理是一個復(fù)雜的系統(tǒng)工程,包含了IT架構(gòu)、基礎(chǔ)設(shè)施、災(zāi)備、安全、IT治理等各個不同的技術(shù)和管理領(lǐng)域,在每一個技術(shù)和管理領(lǐng)域中又都有其自身的知識體系和方法體系,本文無法窮舉,希望通過以上內(nèi)容對企業(yè)CIO在構(gòu)建高可用IT管理體系方面有所幫助,共同推進(jìn)高可用IT管理體系的發(fā)展。

分享到

liukai

相關(guān)推薦