從“可選”到“必選”

    作為青島市勞動和社會保障信息系統(tǒng)的副處長張帥來說,怎樣萬無一失地保證業(yè)務系統(tǒng)的不間斷運行,一直是最讓他牽掛的事情。

    說起來也難怪,一方面,現(xiàn)代企業(yè)和社會,對于信息系統(tǒng)的依賴性越來越強,并逐步成為其生存運轉(zhuǎn)的命脈:根據(jù)權(quán)威調(diào)查,企業(yè)如果在災難后兩個星期內(nèi)無法恢復信息系統(tǒng)的使用,超過80%的公司業(yè)務將不得不停頓下來,而這會直接導致近一半的公司永遠關(guān)閉。如果信息系統(tǒng)停頓的時間超過一個月,那么幸存的公司不會超過20%。

    另一方面,火災、水災、爆炸、地震、雷擊或設(shè)備線路故障等自然原因以及黑客破壞、人為破壞等非自然原因引起的災難,又時刻縈繞在我們的周圍,使我們無法做到高枕無憂。如果說對于大多數(shù)企業(yè)而言,災難意味著財產(chǎn)和企業(yè)名譽的損失,那么對于“社?!边@樣重要的系統(tǒng),更要考慮到重大的社會影響和政治影響,這是一個任何人都難以承擔的巨大責任。

    據(jù)張帥介紹,關(guān)于社保系統(tǒng)安全與持續(xù)運行的問題,很早就列入了他們重點工作的日程表。青島市勞動和社會保障信息系統(tǒng)采用了全市大集中模式,并且包括多個業(yè)務系統(tǒng);同時,業(yè)務系統(tǒng)的數(shù)據(jù)流量、數(shù)據(jù)處理量和數(shù)據(jù)存儲量也越來越大。因此,業(yè)務系統(tǒng)的穩(wěn)定與否、系統(tǒng)的保護和數(shù)據(jù)的保護是否健全,已成為青島市社會保障業(yè)務系統(tǒng)正常運行的關(guān)鍵?!坝捎谌轂膫浞萆婕暗较到y(tǒng)的安全運營,而本身它又是面向未來發(fā)生概率較小的事件,因此我們更需要謹慎,尋找一個可靠穩(wěn)妥,切合我們工作實際需求的解決方案。”

    從現(xiàn)有的系統(tǒng)情況來看,數(shù)據(jù)集中處理的實施,讓勞動保障的業(yè)務運作、管理模式將越來越依賴于計算機系統(tǒng)的可靠運行。青島市各級勞動保障機構(gòu)所提供服務的連續(xù)性以及業(yè)務數(shù)據(jù)的完整性、正確性、有效性,會直接關(guān)系到業(yè)務的生產(chǎn)、管理與決策活動。

    隨著時間的推移,對網(wǎng)絡(luò)、通信線路、服務器主機等關(guān)鍵硬件設(shè)備以及數(shù)據(jù)庫,應用服務器等軟硬件進行相應的故障保護和容災備份部署,已經(jīng)由原來的“可選”變成了“必選”。因為一旦集中處理體系的任何一個環(huán)節(jié)因為火災、地震等導致異常情況,都會使正常業(yè)務無法正常進行,造成重要數(shù)據(jù)的丟失、破壞,使相關(guān)的青島市各級勞動保障部門的勞動保障經(jīng)辦業(yè)務系統(tǒng)中斷,從而最終導致無法預計的后果。

    于是,尋找適合的災難備份系統(tǒng),成為他們當時最為迫切的任務。

    “適合”就是第一準則

    “雖然提供相關(guān)解決方案的廠商有不少,但是選擇起來卻頗費工夫?!睋?jù)負責該項目后期實施的項目經(jīng)理趙軍介紹,“由于容災所承擔的是青島社保系統(tǒng)最關(guān)鍵的核心業(yè)務,其重要作用勿庸置疑,容災本身的復雜性也是十分明顯的,這就決定了該容災項目并不是簡單的產(chǎn)品方案采購,而是一項需要認真對待的系統(tǒng)工程?!?br />

    在考察了多家企業(yè)后,用戶最終把目光鎖定在了賽門鐵克的身上,除了因為賽門鐵克旗下的VERITAS遠程容災解決方案早已在業(yè)界聲名遠播,更重要的是,他們能夠從客戶的角度考慮問題。賽門鐵克的工程師在初期接觸項目時就建議用戶:備份容災是涉及到眾多技術(shù)以及眾多產(chǎn)品的解決方案。因此性能、靈活性以及價格都是必須考慮的因素,需要根據(jù)用戶的實際需求量身打造,而不是盲目選用最貴的產(chǎn)品。許多用戶的生產(chǎn)站點都是經(jīng)過長期積累、多次改造后形成的,對于特殊的應用還采用特定的設(shè)備。那么當考慮構(gòu)建容災站點時就必須把所有這些情況都考慮進來??“選擇適合自己的”是構(gòu)建容災方案的一條基本準則。當然,賽門鐵克也建議與此同時用戶還要考慮長遠一些,盡量采用先進而不是將要淘汰的技術(shù),畢竟冗余站點與生產(chǎn)站點一樣會長期使用。

    從具體的項目需求來看,青島市社會保障信息系統(tǒng)的故障恢復和災難備份系統(tǒng)的建設(shè)要求采用應用級別的容災方案,在系統(tǒng)建設(shè)過程中,不僅考慮數(shù)據(jù)中心端的容錯,還應該考慮對重要關(guān)鍵業(yè)務的系統(tǒng)進行異地容災備份和對重要數(shù)據(jù)的定時、實時備份。這樣不但保證了用戶的關(guān)鍵業(yè)務數(shù)據(jù)的不丟失性和高安全性,而且還避免了當生產(chǎn)中心發(fā)生意外災難時(如生產(chǎn)中心停電時間超過UPS保障時間1個小時),業(yè)務中斷時間過長等問題,將損失降到最低點,同時保障業(yè)務運行的持續(xù)性。

    “社?!钡谋kU方案

    在經(jīng)過與用戶的多次討論和實際演練之后,最終選擇的解決方案技術(shù)條理已變得十分清晰。青島社保容災系統(tǒng)主節(jié)點為青島市勞動局的中心機房,同時,為了能夠在災難發(fā)生后,業(yè)務系統(tǒng)依然可以不間斷地被訪問,其在青島市社保機關(guān)大樓建立了一個備用系統(tǒng),以便適時接管業(yè)務。青島市社會保障信息系統(tǒng)數(shù)據(jù)中心與災備中心之間采用專線連接方式,通過主機邏輯卷遠程復制功能,實現(xiàn)數(shù)據(jù)的同步復制。




    數(shù)據(jù)中心數(shù)據(jù)庫服務器采用雙機集群配置,磁盤采用RAID技術(shù)提供磁盤鏡像,并配備磁帶庫數(shù)據(jù)備份系統(tǒng)。當某一通信線路、路由器、防火墻、交換機、服務器出現(xiàn)故障,相應的備份通信線路,以及冗余的路由器、防火墻、交換機、服務器接管工作。當數(shù)據(jù)磁盤出現(xiàn)故障時,可以采用RAID磁盤鏡像以及數(shù)據(jù)備份系統(tǒng)進行數(shù)據(jù)恢復。

    在災備中心相應配置一臺數(shù)據(jù)庫服務器、一臺應用服務器、一臺磁盤陣列、一臺備份服務器、二臺網(wǎng)絡(luò)交換機,二臺路由器。

    災備中心的業(yè)務數(shù)據(jù)庫和應用服務器采用與生產(chǎn)中心性能一致的主機系統(tǒng),進行單主機配置,磁盤采用RAID磁盤鏡像。當由于生產(chǎn)中心的災難造成數(shù)據(jù)丟失時,災備中心可以快速恢復生產(chǎn)中心的數(shù)據(jù),以便快速恢復應用。

    為保證遠程數(shù)據(jù)同步復制的實現(xiàn), 兩個節(jié)點間通過10M SDH網(wǎng)絡(luò)互連, 兩個節(jié)點之間采用VERITAS的數(shù)據(jù)復制管理軟件VERITAS Volume Replicator,將數(shù)據(jù)庫和應用數(shù)據(jù)作遠程復制。VVR采用可靠的連接和監(jiān)聽協(xié)議,保證遠程備份站點與本地邏輯卷數(shù)據(jù)的一致性。該軟件能容忍網(wǎng)絡(luò)延遲:在同步模式下,若網(wǎng)絡(luò)發(fā)生堵塞,可自動切換到異步模式,當網(wǎng)絡(luò)恢復后,再重新同步。

    為了能夠監(jiān)測應用系統(tǒng)的運行情況,并能夠在災難發(fā)生時實現(xiàn)應用系統(tǒng)從青島市勞動局中心機房到備份中心的切換,青島社保選用專門的VERITAS Global Cluster Manager廣域網(wǎng)集群管理軟件來實現(xiàn)多集群的管理和應用系統(tǒng)的容災。GCM主要管理由青島市勞動局和青島市社保機關(guān)大樓兩個節(jié)點組成的廣域集群,集中管理廣域范圍的網(wǎng)管應用,并結(jié)合VVR做應用級的容災,在青島市勞動局和青島市社保機關(guān)大樓之間做自動的或管理員確認的或計劃內(nèi)人工發(fā)起的網(wǎng)管應用切換。

    VERITAS的GCM還可以在青島市勞動局和青島市社保機關(guān)大樓之間建立心跳線以檢測兩地的系統(tǒng),一旦青島市勞動局系統(tǒng)發(fā)生故障,GCM將自動或由系統(tǒng)管理員確認或手工將網(wǎng)管應用在青島市社保機關(guān)大樓接管運行。由此保證網(wǎng)管系統(tǒng)的不間斷運行。另一方面,對于計劃內(nèi)的停機情況,如青島市勞動局機房的地點整體搬遷,也可以手工將網(wǎng)管系統(tǒng)切換到青島市社保機關(guān)大樓運行,直到青島市勞動局的新機房建立好后再將網(wǎng)管系統(tǒng)切換回青島市勞動局。

    該容災備份建設(shè)結(jié)構(gòu)可滿足未來幾年業(yè)務增長的需要,整個結(jié)構(gòu)具有非常好的擴展能力以適應業(yè)務發(fā)展的需求。當業(yè)務增加、數(shù)據(jù)傳輸量增大、數(shù)據(jù)處理量增大、數(shù)據(jù)存儲量增大,可以通過增加相應的硬件設(shè)備來實現(xiàn)負載均衡、分布服務、高性能運行和容錯、容災。該系統(tǒng)投入運行以來, 運行正常, 性能良好。最終為青島市勞動和社會保障核心應用系統(tǒng)提供了7×24小時全面的數(shù)據(jù)和應用安全保障。

    附:


分享到

多易

相關(guān)推薦