計(jì)算機(jī)集群技術(shù)探析
【摘要】集群系統(tǒng)成為構(gòu)建高性能計(jì)算系統(tǒng)的主流方式,由于具有低成本、高性能和良好的可擴(kuò)展性,集群系統(tǒng)已經(jīng)日益成為構(gòu)建高性能計(jì)算系統(tǒng)的主要方式,計(jì)算機(jī)集群技術(shù)進(jìn)行了探討分析。
【關(guān)鍵詞】計(jì)算機(jī);集群;集群技術(shù)
計(jì)算機(jī)軟硬件及算法的改進(jìn)及提高,對(duì)高性能計(jì)算技術(shù)提出了更高的要求。集群技術(shù)是處理器技術(shù)和網(wǎng)絡(luò)技術(shù)不斷提高的產(chǎn)物,是一組獨(dú)立的計(jì)算機(jī)的集合體,使節(jié)點(diǎn)間通過(guò)高性能的互連網(wǎng)絡(luò)連接。
一、集群定義
隨著計(jì)算機(jī)技術(shù)的發(fā)展和越來(lái)越廣泛的應(yīng)用,越來(lái)越多的依賴于計(jì)算機(jī)技術(shù)的應(yīng)用系統(tǒng)走進(jìn)了我們的工作和生活。在給我們帶來(lái)方便和效率的同時(shí),也使得各行各業(yè)對(duì)于計(jì)算機(jī)技術(shù)的依賴程度越來(lái)越高。盡管隨著計(jì)算機(jī)技術(shù)以目新月異的速度發(fā)展,單臺(tái)服務(wù)器的性能和可靠性越來(lái)越好,但還是有許多現(xiàn)實(shí)的要求是單臺(tái)服務(wù)器難以達(dá)到的。往往需要將多臺(tái)服務(wù)器組織起來(lái)進(jìn)行協(xié)同工作來(lái)模擬一臺(tái)功能更強(qiáng)大的系統(tǒng),這種技術(shù)稱為集群技術(shù)。所謂集群,就是共同為客戶機(jī)提供網(wǎng)絡(luò)資源的一組服務(wù)器系統(tǒng),其中的每一臺(tái)提供服務(wù)的計(jì)算機(jī),稱之為節(jié)點(diǎn)。當(dāng)一個(gè)節(jié)點(diǎn)不可用或者不能處理客戶的請(qǐng)求時(shí),該請(qǐng)求將會(huì)轉(zhuǎn)到另外的可用節(jié)點(diǎn)來(lái)處理,這些對(duì)于客戶端來(lái)說(shuō),它根本不必關(guān)心這此要使用的資源的具體位置,集群系統(tǒng)會(huì)自動(dòng)完成。
集群中節(jié)點(diǎn)可以以不同的方式來(lái)運(yùn)行,這要看它們是如何設(shè)置。在一個(gè)理想的兩個(gè)節(jié)點(diǎn)的集群中,兩個(gè)服務(wù)器都同時(shí)處于活動(dòng)狀態(tài),也就是在兩個(gè)節(jié)點(diǎn)上同時(shí)運(yùn)行應(yīng)用程序,當(dāng)一個(gè)節(jié)點(diǎn)出現(xiàn)故障時(shí),運(yùn)行在出故障的節(jié)點(diǎn)上的應(yīng)用程序就會(huì)轉(zhuǎn)移到另外的沒(méi)有出現(xiàn)故障的服務(wù)器上,這樣一來(lái),由于兩個(gè)節(jié)點(diǎn)的工作現(xiàn)在由一個(gè)服務(wù)器來(lái)承擔(dān), 自然會(huì)影響服務(wù)器的性能。
針對(duì)這種情況的解決方案是,在正常操作時(shí),另一個(gè)節(jié)點(diǎn)處于備用狀態(tài),只有當(dāng)恬動(dòng)的節(jié)點(diǎn)出現(xiàn)故障時(shí)該備用節(jié)點(diǎn)才會(huì)接管工作,這并不是一個(gè)很經(jīng)濟(jì)的方案,你不得不買兩個(gè)服務(wù)器來(lái)做一個(gè)服務(wù)器的工作。雖然當(dāng)出現(xiàn)故障時(shí)不會(huì)對(duì)性能產(chǎn)生任何影響,但是在正常運(yùn)行時(shí)的性能價(jià)格比并不太好。
二、集群網(wǎng)絡(luò)服務(wù)器發(fā)展現(xiàn)狀
由同構(gòu)或異構(gòu)的計(jì)算機(jī)連接起來(lái)協(xié)同完成特定的任務(wù),應(yīng)用程序或用戶可以透明訪問(wèn)的、均衡負(fù)載的雙機(jī)或多機(jī)系統(tǒng)就是集群系統(tǒng)。集群系統(tǒng)在可靠性、高性能、可擴(kuò)展性、負(fù)載均衡及性價(jià)比方面具有獨(dú)特的優(yōu)勢(shì),因而是目前構(gòu)建高性能網(wǎng)絡(luò)服務(wù)器的主要發(fā)展方向。我們稱集群網(wǎng)絡(luò)服務(wù)器系統(tǒng)中實(shí)際進(jìn)行任務(wù)處理的機(jī)器為執(zhí)行服務(wù)器。用集群系統(tǒng)來(lái)提供高性能網(wǎng)絡(luò)信息服務(wù)的難點(diǎn)主要在于:透明性,性能,高可用性,可管理性。
圍繞這些問(wèn)題,主要從如下幾個(gè)方面展開(kāi)了研究:
(1)體系結(jié)構(gòu)。
如以IBM的TCP Router(3),LVS (LinuxVirtual Server)(4)的IPV S為代表的單負(fù)載均衡部件的體系結(jié)構(gòu);以Boston大學(xué)的DPR(Distributed Packet Rewriting)(5)為代表的多負(fù)載均衡部件的體系結(jié)構(gòu)及其擴(kuò)展:以VAnessa(vA Network Enhanced Scalable Server Architecture)(6)為代表的全球地理分布的體系結(jié)構(gòu)。
(2)調(diào)度機(jī)制。
這是影響到集群服務(wù)器系統(tǒng)關(guān)鍵性能的重要技術(shù),也是目前研究工作的重點(diǎn),F(xiàn)有的調(diào)度機(jī)制都以負(fù)載均衡為基礎(chǔ),按照控制粒度由粗到細(xì)的順序有如下幾種:基于RR—DNS的調(diào)度,如NCSA group和DEC WRL group采用過(guò)的解決方案,這是客戶機(jī)一級(jí)的粗粒度調(diào)度方案。其好處是實(shí)現(xiàn)簡(jiǎn)單,主要問(wèn)題是負(fù)載容易傾斜,服務(wù)器非完全透明,可用性與可維護(hù)性差;基于負(fù)載均衡器的調(diào)度,通過(guò)專門的負(fù)載均衡器將用戶請(qǐng)求分派給執(zhí)行服務(wù)器。
根據(jù)控制粒度又可分為:基于第四層負(fù)載平衡的解決方法,如CiSCO的Local Director Berke1ey NOW project的MagicRouter,IBM 的TCP Router 和Interactjve NetworkDi spatcher,LV S的IPVS,這是單次連接一級(jí)的中粒度調(diào)度方案;基于內(nèi)容的負(fù)載平衡解決方法(又稱為第七層調(diào)度或基于應(yīng)用層的調(diào)度),調(diào)度考慮服務(wù)器的負(fù)載,還考慮服務(wù)的內(nèi)容,如Zeus負(fù)載調(diào)度器、pWeb,Reverse—Proxy和SWEB以及Res—onate、A1teon等提供的第四層交換產(chǎn)品,這是單次請(qǐng)求一級(jí)的細(xì)粒度調(diào)度方案。
以上各種調(diào)度機(jī)制實(shí)現(xiàn)了不同粒度的負(fù)載平衡,并結(jié)合使用了不同的報(bào)文分發(fā)技術(shù),各有特點(diǎn),適合不同的應(yīng)用場(chǎng)合。基于RR—DNS的調(diào)度由于其實(shí)施的簡(jiǎn)單性和經(jīng)濟(jì)性,在目前的因特網(wǎng)站點(diǎn)中使用較多。基于負(fù)載均衡器的產(chǎn)品性能較高,如基于第四層負(fù)載平衡調(diào)度的LVS(軟件)前端節(jié)點(diǎn)可達(dá)到每秒l5萬(wàn)個(gè)報(bào)文的處理速率,吞吐率約為每秒2萬(wàn)5千個(gè)連接.Nortel Networks的Alteon 180系列的Web交換機(jī)(基于TCP層及應(yīng)用層信息進(jìn)行負(fù)載平衡)可達(dá)到每秒33萬(wàn)6千個(gè)連接的吞吐率,但這類系統(tǒng)多為昂貴的商業(yè)產(chǎn)品。
(3)動(dòng)態(tài)重構(gòu)、故障定位及恢復(fù)。
目前集群系統(tǒng)普遍采用的是心跳檢測(cè)機(jī)制,通過(guò)不斷探測(cè)目標(biāo)系統(tǒng)的健康情況,對(duì)故障節(jié)點(diǎn)實(shí)施屏蔽、替換,并且在故障系統(tǒng)恢復(fù)后自動(dòng)將其加入集群系統(tǒng),整個(gè)切入切出過(guò)程的時(shí)間在秒的量級(jí),從而實(shí)現(xiàn)了集群的動(dòng)態(tài)維護(hù)。
(4)通訊機(jī)制。
一種典型方案以當(dāng)前可普遍獲取的快速以一太網(wǎng)網(wǎng)卡和集線器/交換機(jī)及運(yùn)行其上的`TCP/IP協(xié)議作為集群節(jié)點(diǎn)的互聯(lián)機(jī)構(gòu);另一種典型方案使用專為集群設(shè)計(jì)的互聯(lián)硬件,如Myricom的Myrinet,Giganet的cLAN、IEEE 1596標(biāo)準(zhǔn)可伸縮一致接口(SCI)及VMIC的(MC C Memory Channe1),通過(guò)專門的硬件及通訊協(xié)議獲得很高的性能。目前集群的高速通訊設(shè)施在軟硬件方面正趨向于標(biāo)準(zhǔn)化,如由Compaq,Intel,Microsoft發(fā)起的VIA (Virtual Interface VI Architec—ture)。
(5)I/0機(jī)制。
除了各個(gè)節(jié)點(diǎn)擁有各自獨(dú)立的I/o資源外,一種常見(jiàn)的方案是集群各個(gè)節(jié)點(diǎn)共享外部存儲(chǔ)設(shè)備,如RAID,支持多個(gè)節(jié)點(diǎn)的同時(shí)訪問(wèn),增大了帶寬,提高了集群系統(tǒng)的可用性及可擴(kuò)展性。目前, 由Compaq,Del1,HP,IBM,Intel,Mi—crosoft及Sun等大公司針對(duì)集群系統(tǒng)在可靠性、可用性、可擴(kuò)展性、高性能方面對(duì)i/o系統(tǒng)提出的要求提出了InfiniBandTMArchitecture這種基于通道和交換網(wǎng)絡(luò)的新一代I/0技術(shù)。目前在研究使用通用工作站、微機(jī)等一般設(shè)備構(gòu)建高性價(jià)比集群網(wǎng)絡(luò)服務(wù)器時(shí),考慮較多的是前三個(gè)方面,特別是圍繞調(diào)度機(jī)制的研究提高集群負(fù)載調(diào)度器的吞吐率,對(duì)如何從集群的整體考慮,維持整個(gè)系統(tǒng)的高吞吐率,如何為上層應(yīng)用提供Oos控制這種非常有價(jià)值的高級(jí)特性支持研究較少。
總的來(lái)看,集群是構(gòu)建高性能網(wǎng)絡(luò)服務(wù)器的趨勢(shì),今后的集群系統(tǒng),將繼續(xù)向著高可用,可擴(kuò)展,高性能的方向發(fā)展,一個(gè)重要方向是集群中的各個(gè)節(jié)點(diǎn)共享內(nèi)存、硬盤、CPU和I/o等重要的子系統(tǒng),從而形成單一系統(tǒng)映像(SSI),也將更加注意上層應(yīng)用對(duì)QoS控制等高級(jí)應(yīng)用特性的具體需求。目前因特網(wǎng)上的許多著名站點(diǎn)都不同程度地采用了集群技術(shù)。國(guó)外IBM,Cisco,Compaq,Berkeley等公司和大學(xué)在集群服務(wù)器方面做了大量研究工作,并已形成產(chǎn)品;國(guó)內(nèi)中科院、清華大學(xué)、網(wǎng)絡(luò)集群有限公司、浪潮公司等單位在集群服務(wù)器領(lǐng)域也正進(jìn)行著相關(guān)的研究和產(chǎn)品化的工作。
目前市場(chǎng)上絕大部分性能較高的集群產(chǎn)品都是外國(guó)產(chǎn)品,價(jià)格非常昂貴,如IBM的NetDispatche:依賴于其SP/2服務(wù)器系統(tǒng),兩者的捆綁銷售價(jià)達(dá)上百萬(wàn)美元。現(xiàn)有多數(shù)研究普遍強(qiáng)調(diào)系統(tǒng)的高可伸縮性、高可用性等基本性能特性,對(duì)QoS控制等高級(jí)功能特性的研究還有許多工作要做。研制自主知識(shí)產(chǎn)權(quán),具有一定通用性,滿足高吞吐率、高可伸縮性、高可用性等基本性能需求,并提供QoS控制等高級(jí)功能支持的集群產(chǎn)品,符合網(wǎng)絡(luò)信息服務(wù)的發(fā)展趨勢(shì),具有重大的意義。
三、實(shí)現(xiàn)技術(shù)
1.高可用性集群技術(shù)。
高可用性集群,英文原文為HighAvailabi11ity Cluster(8)簡(jiǎn)稱HA Cluster是指以減少服務(wù)中斷(宕機(jī))時(shí)間為目的的服務(wù)器集群技術(shù)。隨著全球經(jīng)濟(jì)的增長(zhǎng),世界各地各種各樣的組織對(duì)IT系統(tǒng)的依賴都在不斷增加,電子貿(mào)易使得商務(wù)一周七天24小時(shí)不間斷的進(jìn)行成為了可能。新的強(qiáng)大的應(yīng)用程序使得商業(yè)和社會(huì)機(jī)構(gòu)對(duì)日常操作的計(jì)算機(jī)化要求達(dá)到了空前的程度,趨勢(shì)非常明顯,我們無(wú)時(shí)無(wú)刻不依賴于穩(wěn)定的計(jì)算機(jī)系統(tǒng)。這種需求極速的增加,使得對(duì)系統(tǒng)可用性的要求變得非常重要,許多公司和組織的業(yè)務(wù)在很大程度上都依賴于計(jì)算機(jī)系統(tǒng),任何的宕機(jī)都會(huì)造成嚴(yán)重的損失。
2.高性能計(jì)算集群技術(shù)。
高性能計(jì)算集群,關(guān)文原文為m gh Performance Computing Cluster(9)簡(jiǎn)稱HPC C luster是指以提高科學(xué)計(jì)算能力為目的計(jì)算機(jī)集群技術(shù)。HPC Clus—ter提一種并行計(jì)算(Paral1el Processing)集群的實(shí)現(xiàn)方法。
并行計(jì)算是指將一個(gè)應(yīng)用程序分劑成多塊可以并行執(zhí)行的部分并指定到多個(gè)處理器上執(zhí)行的方法。目前的很多計(jì)算機(jī)系統(tǒng)可以支持SMP(對(duì)稱多處理器)架構(gòu)并通過(guò)進(jìn)程調(diào)度機(jī)制進(jìn)行并行處理,但是SMP技術(shù)的可擴(kuò)展性是十分有限的,比如在目前的Intel架構(gòu)上最多只可以擴(kuò)展到8顆CPU。為了滿足那“計(jì)算能力饑渴”的科學(xué)計(jì)算任務(wù),并行計(jì)算集群的方法被引入到計(jì)算機(jī)界。
3.高可擴(kuò)展性集群技術(shù)。
高可擴(kuò)展性集群技術(shù)就是帶均衡策略(算法)的服務(wù)器群集。負(fù)載均衡群集在多節(jié)點(diǎn)之間按照一定的策略(算法)分發(fā)網(wǎng)絡(luò)或計(jì)算處理負(fù)載,負(fù)載均衡建立在現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu)之上,它提供了一種廉價(jià)有效的方法來(lái)擴(kuò)展服務(wù)器帶寬,增加吞吐量,提高數(shù)據(jù)處理能力,又可以避免單點(diǎn)故障。在提高信息系統(tǒng)可靠性方面,目前常見(jiàn)的方式是采用雙機(jī)冗余結(jié)構(gòu)。但與多機(jī)冗余結(jié)構(gòu)相比,因其冗余節(jié)點(diǎn)數(shù)少于后者而使其可靠性和系統(tǒng)重構(gòu)能力明顯不如后者,并且雙機(jī)系統(tǒng)結(jié)構(gòu)的特點(diǎn)在計(jì)算資源方面制約著大規(guī)模數(shù)據(jù)處理,或者在容錯(cuò)方面不能實(shí)現(xiàn)全節(jié)點(diǎn)間的對(duì)等冗余。具有高性能計(jì)算、高可用性、高可擴(kuò)展性優(yōu)勢(shì)的集群服務(wù)器系統(tǒng),可滿足醫(yī)院信息網(wǎng)絡(luò)系統(tǒng)的信息處理需求,現(xiàn)已逐步在系統(tǒng)信息處理中得到應(yīng)用。
參考文獻(xiàn)
[1]鄭緯民.集群系統(tǒng)的現(xiàn)狀與挑戰(zhàn)[J]計(jì)算機(jī)教育.2004(6)
[2]胡章平.集群系統(tǒng)與分布式計(jì)算[J].電腦知識(shí)與技術(shù).2006(5)
[3]李艷華.集群計(jì)算機(jī)技術(shù)應(yīng)用[J]湖北財(cái)經(jīng)高等?茖W(xué)校學(xué)報(bào).2007(2)
[4]賀喜玲.動(dòng)態(tài)自適應(yīng)集群系統(tǒng)[J].現(xiàn)代企業(yè)教育.2008(22)
[5]李敏,張宜生,李德群.用于并行計(jì)算的Pc集群系統(tǒng)構(gòu)建[J].計(jì)算機(jī)應(yīng)用研究.2009(3)
[6]安立奎,錢偉懿,韓麗艷.集群系統(tǒng)中基于MPI的關(guān)聯(lián)規(guī)則快速挖掘算法[J].三峽大學(xué)學(xué)報(bào)(自然科學(xué)版).2010(1)
【計(jì)算機(jī)集群技術(shù)探析】相關(guān)文章:
1.計(jì)算機(jī)安全監(jiān)控技術(shù)探析論文
2.計(jì)算機(jī)軟件安全檢測(cè)技術(shù)探析
3.計(jì)算機(jī)及網(wǎng)絡(luò)應(yīng)用技術(shù)探析
4.現(xiàn)代計(jì)算機(jī)網(wǎng)格技術(shù)應(yīng)用問(wèn)題探析
5.計(jì)算機(jī)及網(wǎng)絡(luò)應(yīng)用技術(shù)的探析
6.計(jì)算機(jī)應(yīng)用軟件開(kāi)發(fā)技術(shù)探析