理解HyperFlex架構(gòu)如何支持實現(xiàn)下一代高性能系統(tǒng)

時間：2024-06-15 21:10:03 電子信息工程畢業(yè)論文

　　高性能文件系統(tǒng) (High Performance File System ，HPFS)，HPFS是Microsoft的LAN Manager中的文件系統(tǒng)，同時也是IBM的LAN Server和OS/2產(chǎn)品。在OS/2中，它就是HPFS，但是在LAN Manager和LAN Server產(chǎn)品中，它是HPFS386，這是HPFS的改進版本。HPFS提供了DOS文件系統(tǒng)中的文件分配表(FAT)所沒有的長文件名和性能增強特性。另外，HPSF還能訪問較大的硬盤驅(qū)動器，提供更多的組織特性并改善了文件系統(tǒng)的安全特性。HPFS386增加了對HPFS文件系統(tǒng)的32位訪問，另外還增加了容錯和安全性功能。

　　下一代高性能系統(tǒng)對帶寬的需求越來越大。為滿足這一需求，促使設(shè)計人員使用各種方法來優(yōu)化其設(shè)計，提高時鐘頻率。雖然傳統(tǒng)的FPGA內(nèi)核體系結(jié)構(gòu)支持這些優(yōu)化，但是，所能夠提高的頻率有限。與傳統(tǒng)的方法不同，Stratix10 FPGA和SoC使用HyperFlex新體系結(jié)構(gòu)，內(nèi)核時鐘頻率可達到前一代高性能FPGA的兩倍。

　　一、傳統(tǒng)FPGA架構(gòu)的困惑

　　為滿足下一代高性能系統(tǒng)越來越高的帶寬要求，F(xiàn)PGA供應(yīng)商一直在對其器件體系結(jié)構(gòu)逐步進行改進。即使是采用了先進的體系結(jié)構(gòu)，設(shè)計人員通常會使用非常寬的片內(nèi)總線實現(xiàn)其設(shè)計。實際上，512、1024或者2048位寬的片內(nèi)總線的應(yīng)用越來越普遍了。

　　這一方法雖然提高了FPGA內(nèi)核的數(shù)據(jù)吞吐量，但是寬總線占用了大量的架構(gòu)資源，功耗也大。而且，隨著FPGA資源不斷被填滿，布線資源會出現(xiàn)擁塞，內(nèi)核時鐘頻率會受限。

　　提高帶寬的另一方法是在使用最先進工藝節(jié)點制造的FPGA中實現(xiàn)設(shè)計，期望能夠受益干最新技術(shù)較高的晶體管開關(guān)速率。但是，隨著工藝尺寸的不斷減小，邏輯單元之間的互聯(lián)延時成為FPGA中總延時的主要因素，這限制了進一步提高晶體管開關(guān)速率�；旧�，傳統(tǒng)的FPGA體系結(jié)構(gòu)無法滿足未來的性能需求。

　　二、高性能系統(tǒng)對帶寬的需求

　　光傳送網(wǎng)(OTN)、固網(wǎng)、軍事和高性能計算應(yīng)用對帶寬的需求越來越大。傳送大量數(shù)據(jù)的需求導(dǎo)致FPGA中的數(shù)據(jù)通路寬度越來越寬。通過布線體系結(jié)構(gòu)傳送的數(shù)據(jù)量與所使用的走線數(shù)量和走線速度(fMAX)有關(guān)。能夠使用的走線數(shù)量取決于技術(shù);與器件大小以及所采用技術(shù)的最小走線間距有關(guān)。

　　布線體系結(jié)構(gòu)使用分層(例如，邏輯陣列模塊(LAB)中的本地布線，以及水平和垂直互聯(lián)導(dǎo)線的全局布線)和優(yōu)化方法，提高了走線效率。但是，提高走線數(shù)量會增大芯片面積，也增大了功耗。走線速度與技術(shù)有關(guān)(走線上的RC延時)，受到FPGA體系結(jié)構(gòu)和設(shè)計實現(xiàn)的影響。例如，對設(shè)計進行流水線處理會提高時鐘速率，而不會增加走線數(shù)量，在同樣的資源情況下，提高了帶寬。

　　三、高性能系統(tǒng)對效率的需求

　　當(dāng)設(shè)計人員對設(shè)計進行流水線處理以提高性能時，他們會在設(shè)計中增加寄存器。傳統(tǒng)的構(gòu)建寄存器查找表(LUT)對的方法意味著要犧牲邏輯以實現(xiàn)更多的流水線寄存器，所有現(xiàn)有FPGA內(nèi)核體系結(jié)構(gòu)中都有這些寄存器查找表對。采用傳統(tǒng)體系結(jié)構(gòu)中的流水線需要信號輸入邏輯模塊然后再輸出，帶來了延時成本。結(jié)果是流水線方法的效果逐漸變差，特別是布線延時是總延時的主要因素。圖1顯示了采用傳統(tǒng)流水線之前和之后的實例，由于增加寄存器帶來的輸入和輸出走線導(dǎo)致延時增大。

　　四、高性能系統(tǒng)對提高時鐘的需求

　　隨著時鐘速率的提高，時鐘偏移也越來越重要了。傳統(tǒng)的FPGA內(nèi)核體系結(jié)構(gòu)重點放在平衡時鐘樹上，這能夠減小確定性偏移。這一方法對于500MHz以下的設(shè)計能夠很好的工作，但是要突破500MHz瓶頸，速度達到1GHz，那么則需要下一代時鐘解決方案。解決方案必須將時鐘本地化以減小本地差異和偏移，還能夠提供靈活的網(wǎng)絡(luò)，用于高性能設(shè)計中常用的大量的時鐘。

　　五、HyperFlex體系結(jié)構(gòu)

　　為克服上述這些挑戰(zhàn)，Altera的Stratix 10 FPGA和SoC引入了全新的內(nèi)核體系結(jié)構(gòu)，即HyperFlex體系結(jié)構(gòu)。創(chuàng)新的HyperFlex體系結(jié)構(gòu)所實現(xiàn)的性能是以前無法想象的：內(nèi)核性能是前一代高性能FPGA的兩倍。為發(fā)揮HyperFlex體系結(jié)構(gòu)的優(yōu)勢，用戶可以使用熟悉的方法：寄存器時序重排、流水線和設(shè)計優(yōu)化。這些方法能夠加速傳統(tǒng)體系結(jié)構(gòu)上的設(shè)計。但是，與HyperFlex體系結(jié)構(gòu)相結(jié)合后，結(jié)果是，設(shè)計能夠以極快的速度運行，內(nèi)核時鐘速率提升至高達1GHz。

　　Stratix10器件重新設(shè)計了內(nèi)核體系結(jié)構(gòu)，包括了更多的寄存器，即超級寄存器，分布在內(nèi)核架構(gòu)的各個地方。每一互聯(lián)布線段以及所有功能模塊的輸入上都有這些寄存器。超級寄存器提供了精細粒度解決方案，解決了怎樣提高帶寬和面積以及功效等問題。由于能夠輕松的訪問更多的寄存器，用戶可以對寄存器時序重排，以消除關(guān)鍵通路，對寄存器進行流水線處理，去掉布線延時，優(yōu)化用戶的設(shè)計，實現(xiàn)理想性能。當(dāng)采用超級寄存器實現(xiàn)這些方法時，所有FPGA邏輯資源都能夠用于實現(xiàn)邏輯功能，而不是犧牲用作直通單元以連接傳統(tǒng)的LUT寄存器。

　　為能夠跟上內(nèi)核架構(gòu)的高性能，重新設(shè)計了FPGA內(nèi)核中的專用功能模塊――例如，M20K存儲器和浮點數(shù)字信號處理(DSP)模塊，以支持時鐘速率高達1GHz的操作。

　　為方便超級寄存器的使用，Quartus II軟件包括了超感知設(shè)計流程，提供：

　　布局布線后性能優(yōu)化，加速了時序收斂。

　　超感知綜合和布局布線，提高了流水線效率。

　　快速前向編譯，提供了性能增強選擇。

　　為滿足對靈活的時鐘網(wǎng)絡(luò)的需求，Stratix 10 FPGA和SoC包括了可編程時鐘樹綜合功能。這一類似ASIC時鐘幫助降低了偏移和不確定性，而且可以智能的使能時鐘網(wǎng)絡(luò)分支，降低了功耗。

　　Stratix 10 FPGA和SoC使用了Intel的14nm三柵極(FinFET)工藝技術(shù)。HyperFlex新體系結(jié)構(gòu)與業(yè)界領(lǐng)先的FinFET工藝技術(shù)相結(jié)合，與前一代高性能FPGA相比，Stratix10器件的內(nèi)核性能提高了兩倍。

　　六、超級寄存器

　　從90 nm Stratix II FPGA開始，Altera就開始率先采用6輸入LUT降低關(guān)鍵通路深度。在28nm Stratix VFPGA，Altera引入了時間借用鎖存功能，對時鐘和數(shù)據(jù)信號自動進行微小的時序重排處理。

　　對于14nm Stratix 10器件，Altera引入了全新的“寄存器無處不在”內(nèi)核體系結(jié)構(gòu)，這一體系結(jié)構(gòu)布滿了可旁路的時序重排和流水線寄存器。這一方法斷開了自適應(yīng)邏輯模組(ALM)本身功能寄存器之間的關(guān)聯(lián)，使用了超級寄存器對關(guān)鍵通路進行時序重排和流水線處理，從而提高了設(shè)計效率。

　　HyperFlex體系結(jié)構(gòu)可用于對高性能設(shè)計進行時序重排和流水線處理。所有布線段都有可選超級寄存器，構(gòu)建到可編程布線復(fù)用器中，使得布線段能夠被寄存或者進行組合處理。如圖2所示，這些超級寄存器分布在內(nèi)核架構(gòu)的各個地方。在每一水平和垂直布線段的交叉點上，以小方塊表示超級寄存器。

　　采用這一體系結(jié)構(gòu)，不再需要使用ALM來找到流水線寄存器。器件中的每一水平和垂直互聯(lián)線都含有超級寄存器，通過配置FPGA可以關(guān)斷或者打開它們。

　　超級寄存器是簡單的一路輸入一路輸出可旁路寄存器，輸入上沒有布線復(fù)用器。用戶可以通過配置比特來控制這些寄存器。其成本不高，不會明顯增加器件的硅片面積。由于超級寄存器在內(nèi)核架構(gòu)中無處不在，因此，設(shè)計人員不會受限于設(shè)計中寄存器的數(shù)量�？梢愿鶕�(jù)需要對它們時序重排和流水線處理，不會占用額外的LAB資源。在很多情況下，使用布線中的超級寄存器來實現(xiàn)寄存器，而不是僅為了使用ALM的寄存器而部分占用ALM，因此，使用了較少的LAB資源。

　　七、HyperFlex的優(yōu)點

　　由于互聯(lián)布線體系結(jié)構(gòu)中含有超級寄存器，因此可以在布局布線之后優(yōu)化時序，這不會改變設(shè)計的布線。Quartus II軟件在時序重排操作過程中，能夠很容易找到并使用超級寄存器。圖3對比了傳統(tǒng)的布線復(fù)用器和HyperFlex布線復(fù)用器，以及所包含的超級寄存器。

　　超級寄存器支持用戶充分發(fā)揮增強性能的傳統(tǒng)方法的優(yōu)勢――時序重排、流水線和優(yōu)化，以更新更好的方式實現(xiàn)。使用超級寄存器而不是ALM寄存器來實現(xiàn)時，這些方法被稱為超級時序重排、超級流水線和超級優(yōu)化。表1總結(jié)了當(dāng)順序使用這些方法時所提高的性能，其3個步驟使用HyperFlex體系結(jié)構(gòu)提高了性能。

　　八、超級時序重排

　　在傳統(tǒng)的體系結(jié)構(gòu)中，軟件通過找到附近未使用的ALM寄存器，使其含在電路中，進行時序重排。這一時序重排方法受限于ALM寄存器布局的粒度：

　　未使用的ALM所處的位置不一定方便，導(dǎo)致設(shè)計中出現(xiàn)額外的延時。

　　通過ALM連接至寄存器有布線延時開銷。

　　如果軟件嘗試對寬總線(512位、1024位，或者更寬)時序重排，那么時序重排需要大量的其他邏輯單元。

　　確定時序重排寄存器最佳位置所需要的算法比較難。

　　圖4顯示了傳統(tǒng)體系結(jié)構(gòu)時序重排之前和之后的布線實例。

　　在HyperFlex內(nèi)核新體系結(jié)構(gòu)中，使用了超級寄存器來實現(xiàn)精細粒度超級時序重排。Quartus II軟件通過將寄存器移出邏輯單元，放到互聯(lián)中對通路時序重排。每一布線段上都有超級寄存器，因此，有很多可以使用的寄存器位置，方便了進行優(yōu)化。

　　采用超級寄存器，時序重排粒度非常精細;每一段布線的延時，只有幾十皮秒。在傳統(tǒng)體系結(jié)構(gòu)中，當(dāng)嘗試確定時序重排寄存器位置時需要有所折中，如圖4所示，而這在HyperFlex體系結(jié)構(gòu)中是不需要的。因此，在超級時序重排期間，可以很好的分開幾納秒長的通路，如圖5所示。

　　超級時序重排不會影響已有的LAB和ALM，意味著不需要漸進式布局或者布線，對編譯時間沒有很大的影響。對寄存器時序重排，布局布線之后，寄存器位置被推入到布線中能夠自然達到平衡的最終位置(見圖5)。

　　在傳統(tǒng)體系結(jié)構(gòu)中，對于需要成百上千個額外的ALM才能達到時序重排而且通常需要大量重新布線的寬數(shù)據(jù)總線而言，這一特性具有很大的優(yōu)勢。

　　九、超級流水線

　　傳統(tǒng)的流水線受困于和傳統(tǒng)時序重排遇到的同樣的難題，缺少寄存器粒度降低了優(yōu)化的效率。

　　由于在設(shè)計開始時并不知道需要的流水線級數(shù)量以及其最優(yōu)位置，因此，傳統(tǒng)的流水線本質(zhì)上是一個迭代過程。所以，當(dāng)流水線解決方案嘗試滿足性能目標(biāo)時，必須對設(shè)計進行多次布局布線。圖6顯示了傳統(tǒng)流水線處理之前和之后的簡單實例。

　　當(dāng)使用HyperFlex體系結(jié)構(gòu)時，用戶可以使用超級寄存器，根據(jù)需要進行流水線處理，而且不會增大設(shè)計容量。這一過程稱為超級流水線。在很多情況下，使用大量寄存器的設(shè)計由于不需要“孤立”寄存器，因此，實現(xiàn)設(shè)計所需要的ALM數(shù)量減少了。

　　由于流水線的低成本，用戶可以盡量使用這一方法，特別是在數(shù)據(jù)通路和前饋邏輯中。圖7顯示了一個超級流水線的實例。

　　由于軟件能夠?qū)⒓拇嫫饕苿拥交ヂ?lián)中，自動對邏輯時序重排，因此，用戶只需要設(shè)定時鐘域輸入或者子設(shè)計引腳邏輯上所需要的流水線寄存器數(shù)量。Quartus II軟件能夠根據(jù)需要，在布局布線之后將寄存器移動到布線中，解決了傳統(tǒng)體系結(jié)構(gòu)中存在的流水線多次迭代問題。當(dāng)知識產(chǎn)權(quán)(IP)庫面向多個時鐘頻率(fMAX)時，在RTL中把寄存器放到一起也方便了對邏輯進行參數(shù)賦值。

　　十、超級優(yōu)化

　　完成了超級時序重排和超級流水線之后，設(shè)計的某些部分的性能會非常好，而其他部分可能成為瓶頸，很難再提高性能。這些瓶頸可能是長反饋環(huán)或者復(fù)雜狀態(tài)機等電路，需要在每一時鐘周期進行評估。

　　提高設(shè)計性能一種常用的方法是優(yōu)化設(shè)計中的某些部分。例如，具有長反饋環(huán)的設(shè)計會受限于最大頻率(fMAX)。重新設(shè)計電路，預(yù)先計算可能的反饋值，使用短反饋環(huán)在其中進行選擇，以提高頻率。采用超級寄存器，這一過程能夠?qū)崿F(xiàn)的速率要高于傳統(tǒng)的體系結(jié)構(gòu)，這是因為可以使用超級時序重排和超級流水線優(yōu)化預(yù)計算通路。圖8顯示了一個超級優(yōu)化的實例;進行香農(nóng)分解(或者布爾因數(shù)分解)以縮短環(huán)路，從而提高最大頻率。一般而言，可以在控制環(huán)上進行這類優(yōu)化，獲得的性能增益要遠遠超出實現(xiàn)因數(shù)分解所需要的額外邏輯帶來的面積成本代價。

　　十一、靈活的高速可編程時鐘樹綜合

　　高性能FPGA設(shè)計中的時鐘給設(shè)計人員帶來了很大的挑戰(zhàn)。傳統(tǒng)的FPGA有固定的全局時鐘樹網(wǎng)絡(luò)，設(shè)計用于支持大扇出、芯片級全局時鐘域。但是，在GHz性能，時鐘樹對靈活性的要求非常高。設(shè)計人員希望針對性能均衡和時鐘交叉建立時移時鐘，為速率匹配和系統(tǒng)電源管理生成動態(tài)選通時鐘。

　　為滿足這些需求，HyperFlex體系結(jié)構(gòu)含有全新的時鐘結(jié)構(gòu)，包括了經(jīng)過預(yù)先布線的時鐘通路，設(shè)計的時鐘區(qū)域在其上進行綜合(常見于ASIC時鐘樹綜合)。這一結(jié)構(gòu)能夠前所未有的靈活的建立小規(guī)模本地時鐘域。這還可以讓軟件管理偏移;利用好偏移，需要時降低偏移。此外，需要時，可以使用這一時鐘結(jié)構(gòu)來綜合傳統(tǒng)的全局和局部均衡H樹時鐘，以便后向兼容。

　　Quartus II軟件管理可編程時鐘樹綜合;在布局布線期間，它以集成方式來綜合時鐘樹。

　　十二、更高的功效和效能

　　Stratix 10 FPGA和SoC的功耗比前幾代系列有很大的進步，主要是因為使用了Intel的14nm三柵極(FinFET)工藝技術(shù)來制造器件。而且，HyperFlex體系結(jié)構(gòu)也極大的降低了功耗。性能越來越高的HyperFlex體系結(jié)構(gòu)實現(xiàn)了1024比特數(shù)據(jù)通路，時鐘速率達到350MHz，512比特數(shù)據(jù)通路的時鐘速率達到700MHz。結(jié)果，適配到器件中的設(shè)計只占用了一半的器件。這種變化對動態(tài)功耗的影響不大，但是靜態(tài)功耗降低了一半，使用更小的器件，大幅度降低了成本�；蛘�，設(shè)計人員可以自由的發(fā)揮性能優(yōu)勢，部分用于提高時鐘速率，剩余的部分性能用于通過降低內(nèi)核電源供電電壓或者使用速率等級較慢的器件來降低功耗。

　　不僅僅是通過提升內(nèi)核的運行時鐘速率，HyperFlex體系結(jié)構(gòu)能夠提供更多的性能優(yōu)勢;很容易實現(xiàn)時序收斂，提高設(shè)計團隊的效能，縮短產(chǎn)品面市時間。

【理解HyperFlex架構(gòu)如何支持實現(xiàn)下一代高性能系統(tǒng)】相關(guān)文章：

支持多系統(tǒng)網(wǎng)絡(luò)批量安裝的服務(wù)器實現(xiàn)03-08

如何實現(xiàn)金融系統(tǒng)聯(lián)網(wǎng)監(jiān)控03-22

支持語音的教師上課點名系統(tǒng)的設(shè)計與實現(xiàn)DEPHI+SQL03-08

無線巡更系統(tǒng)技術(shù)的實現(xiàn)03-18

利用Directshow進行流媒體播放架構(gòu)的研究與實現(xiàn)03-08

機車視頻監(jiān)控系統(tǒng)的研究與實現(xiàn)03-07

組件機制與操作系統(tǒng)的實現(xiàn)03-18

ＪＡＶＡ實現(xiàn)電子商務(wù)系統(tǒng)03-22

新聞發(fā)布系統(tǒng)的設(shè)計和實現(xiàn)03-07

基于PQRM的PACS系統(tǒng)設(shè)計與實現(xiàn)03-07

亚洲国产日韩欧美在线a乱码,国产精品路线1路线2路线,亚洲视频一区,精品国产自,www狠狠,国产情侣激情在线视频免费看,亚洲成年网站在线观看

理解HyperFlex架構(gòu)如何支持實現(xiàn)下一代高性能系統(tǒng)