白皮書:InfiniBand簡介

原文鏈接:Introduction to InfiniBand

摘要

InfiniBand是一種功能強大的新架構,旨在支持Internet基礎設施的 I/O 連接。 所有主要OEM服務器供應商都支持InfiniBand作爲擴展服務器以及在服務器中創建下一代 I/O 互連標準的手段。 大批量工業標準 I/O互連首次擴展了傳統“盒中”總線的作用。 InfiniBand 獨一無二的提供“盒中”背板解決方案,外部互連和“帶寬開箱即用”,因此它爲僅以先前傳統網絡互連保留的方式提供連接。 I/O 和系統區域網絡的統一需要一種新的體系結構,以支持這兩個先前獨立的域的需求。
 
這一主要 I/O 轉換的基礎是InfiniBand支持Internet對RAS要求的能力:可靠性,可用性和可維護性。 本白皮書討論了展示InfiniBand相對於傳統PCI總線和其他專有交換結構和 I/O 解決方案支持RAS的卓越能力的特性和功能。 此外,它還概述了InfiniBand架構如何全面的支持芯片,軟件和系統解決方案。 通過提供InfiniBand 1.1規範主要部分的概述,說明了該體系結構的全面性。該1.1規範的範圍從行業標準電氣接口和機械連接器到明確定義的軟件和管理接口。
 
本文分爲四個部分:
 
引言(introduction)部分爲InfiniBand奠定了基礎,並說明了爲什麼所有主要服務器供應商都決定採用這一新標準。 第二節將回顧InfiniBand將對傳統技術目前正在解決的各種市場產生的影響。 第三節提供了交換結構和總線架構之間的比較,然後深入研究了InfiniBand與PCI和其他專有解決方案的比較細節。 最後一節詳細介紹了該體系結構,從高層次上回顧了InfiniBand最重要的特性。

1. Introduction

Amdahl定律是計算機科學的基本原理之一,並且基本上表明高效系統必須在CPU性能,內存帶寬和 I/O 性能之間取得平衡。 與此不一致的是,摩爾定律準確地預測半導體大約每18個月就會使其性能翻倍。 由於 I/O 互連受機械和電氣限制的控制比半導體的擴展能力更嚴重,因此這兩個定律導致最終的不平衡並限制系統性能。 這表明 I/O 互連需要每隔幾年徹底改變一次,以保持系統性能。 實際上,還有另一個實用法則可以防止 I/O 互連頻繁更改——如果沒有損壞則不要修復它。
 
總線架構具有巨大的慣性,因爲它們決定了計算機系統和網絡接口卡的機械連接以及半導體設備的總線接口架構。 因此,成功的總線架構通常在十年或更長時間內佔據主導地位。 PCI總線在90年代早期被引入標準PC架構,並且在此期間僅保持了一次主要升級:從 32 bit/33 MHz到 64 bit/66 Mhz。 PCI-X計劃進一步向133MHz邁進,似乎應該爲PCI架構提供更長的使用壽命。但個人電腦和服務器存在差異。
 
個人計算機或 PCs 沒有推動 PCI 64/66的帶寬功能。 PCI插槽爲家庭或企業用戶提供了購買網絡,視頻解碼,高級聲音或其他卡並升級其PC功能的絕佳方式。另一方面,如今的服務器通常在單個系統中包括羣集,網絡(千兆以太網)和存儲(光纖通道)卡,這些卡推動了PCI-X的1GB帶寬限制。隨着InfiniBand架構的部署,PCI-X的帶寬限制變得更加尖銳。 InfiniBand架構定義了4X鏈路,這些鏈路目前正在市場上部署爲PCI HCA(主機通道適配器)。儘管這些HCA提供了過去曾經實現的更大帶寬,但PCI-X是一個瓶頸,因爲單個InfiniBand 4X鏈路的總聚合帶寬爲20 Gb / s或2.5 GB / s。這就是HyperTransport和3GIO等新的“本地” I/O 技術將成爲InfiniBand的關鍵補充角色。
 
互聯網的普及以及對24/7正常運行時間的需求正在推動系統性能和可靠性要求達到當今PCI互連架構無法再支持的水平。 數據存儲元件; Web,應用程序和數據庫服務器; 企業計算正在推動對故障安全,始終可用的系統的需求,提供更高的性能。 該行業的趨勢是將存儲從服務器移出到隔離存儲網絡,並跨容錯存儲系統分發數據。 這些要求超出了對更多帶寬的簡單要求,並且基於PCI的系統已達到共享總線架構的限制。 由於CPU頻率超過千兆赫茲(Ghz)閾值且網絡帶寬超過每秒千兆位(Gb / s),因此需要一種新的 I/O互連,提供更高的帶寬,用以支持和擴展當今的設備。
 
InfiniBand簡介,這是一種基於交換機的串行 I/O 互連架構,在每個方向(每個端口)以2.5 Gb/s或10 Gb/s的基本速度運行。 與共享總線架構不同,InfiniBand是一種低引腳數串行架構,可連接PCB上的器件,實現“開箱即用帶寬”,與普通雙絞線銅線的距離可達17米。 通過普通光纖電纜,它可以跨越幾公里或更長的距離。 此外,InfiniBand還提供 QoS(服務質量)和RAS。這些RAS功能從一開始就被設計到InfiniBand架構中,對於其作爲Internet核心下一代計算服務器和存儲系統的通用 I/O基礎架構的能力至關重要。 因此,InfiniBand將從根本上改變互聯網基礎設施的系統和互連。 本文討論了InfiniBand固有的特性,可以實現這種轉換。
在這裏插入圖片描述
InfiniBand得到業內頂級公司的支持,包括指導委員會成員:Compaq,戴爾,惠普,IBM,英特爾,微軟和Sun. InfiniBand貿易協會共有220多名成員。 InfiniBand架構提供了所提到的所有優勢,但是,爲了實現當前10 Gb/s鏈路的全部性能帶寬,必須消除PCI限制,而這正是當前開發的互連技術將協助InfiniBand的地方。 本文將在後面的部分中說明如何實現InfiniBand的全部潛力,包括全帶寬,甚至高達12X鏈路規範(或每個方向30 Gb/s)。

2. Markets

應用集羣,存儲區域網絡,層間通信和處理器間通信(IPC)等重要市場需要高帶寬,QoS和RAS功能。 此外,許多嵌入式系統(包括路由器,存儲系統和智能交換機)都採用PCI總線(通常採用Compact PCI格式)來實現內部 I/O 架構。 這樣的系統無法跟上千兆以太網和ATM等高速網絡互連,因此許多公司正在開發專有的 I/O 互連架構。 憑藉開發以太網局域網(LAN),光纖通道存儲區域網絡和衆多廣域網(WAN)互連的經驗,InfiniBand已經聯網以超越當今市場的需求,併爲廣泛的市場提供一致的互連 系統範圍。 這是通過直接支持高度重要的項目(如RAS,QoS和可伸縮性)來實現的。

2.1 Application Clustering 應用程序集羣

如今,互聯網已發展成爲支持流媒體,企業對企業解決方案,電子商務和互動門戶網站等應用的全球基礎設施。這些應用程序中的每一個都必須支持不斷增加的數據量和對可靠性的需求。服務提供商反過來又面臨着支持這些應用程序的巨大壓力。它們必須通過日益擁擠的通信線路有效地路由流量,同時提供針對不同QoS和安全級別收費的機會。應用服務提供商(ASP)已經出現,支持將電子商務,電子營銷和其他電子商務活動外包給專門從事基於Web的應用程序的公司。這些ASP必須能夠提供高度可靠的服務,能夠在短時間內大幅度擴展以適應互聯網的爆炸性增長。集羣已發展成爲支持這些要求的首選機制。集羣只是由負載平衡交換機連接的一組服務器,它們並行工作以服務於特定應用程序。
 

通過InfiniBand內置的服務質量機制,可以在優先級較低的項目之前處理設備之間的高優先級事務。

2.2 Inter-Processor Communication (IPC) 處理器間通信

處理器間通信允許多個服務器在單個應用程序上協同工作。 服務器之間需要高帶寬,低延遲的可靠連接,以確保可靠的處理。 可擴展性至關重要,因爲應用程序需要更多的處 InfiniBand的交換特性通過允許系統之間的多條路徑爲IPC系統提供連接可靠性。 通過單個設備(子網管理器)管理的完全熱插拔連接支持可擴展性。 通過多播支持,可以對多個目的地進行單個事務。 這包括髮送到子網上的所有系統,或僅發送到這些系統的子集。 InfiniBand定義的帶寬較高的連接(4X,12X)爲IPC集羣提供了骨幹功能,無需輔助 I/O 互連。

2.3 Storage Area Networks 存儲區域網絡

存儲區域網絡是通過託管交換機連接在一起的複雜存儲系統組,允許從多個服務器訪問大量數據。 如今,存儲區域網絡使用光纖通道交換機,集線器和服務器構建,這些服務器通過光纖通道主機總線適配器(HBA)連接。 存儲區域網絡用於提供與Internet數據中心所需的大型信息數據庫的可靠連接。 存儲區域網絡可以限制各個服務器可以訪問的數據,從而提供重要的“分區”機制(有時稱爲分區或防護)。
 
InfiniBand的結構拓撲允許在存儲和服務器之間簡化通信。 移除光纖通道網絡允許服務器直接連接到存儲區域網絡,而無需昂貴的HBA。 憑藉遠程DMA(RDMA)支持,同步對等通信和端到端流量控制等功能,InfiniBand克服了光纖通道的不足,無需昂貴,複雜的HBA。 本白皮書後面將介紹帶寬比較。

3.0 I/O Architectures - Fabric vs. Bus I/O 架構 - Fabric與總線

共享總線架構是當今最常見的 I/O 互連,儘管存在許多缺點。 集羣和網絡要求系統具有高速容錯互連,而總線架構無法正確支持這些互連。 因此,所有總線體系結構都需要網絡接口模塊來實現可擴展的網絡拓撲。 爲了跟上系統的步伐, I/O 架構必須提供具有擴展能力的高速連接。 表1提供了交換結構體系結構和共享總線體系結構之間的簡單功能比較。

爲了跟上系統的步伐,I/O 架構必須提供具有擴展能力的高速連接。

在這裏插入圖片描述

3.1 Shared Bus Architecture 共享總線架構

在總線架構中,所有通信共享相同的帶寬。 添加到總線的端口越多,每個外設可用的帶寬就越少。 它們還具有嚴重的電氣,機械和電力問題。 在並行總線上,每個連接需要許多引腳(64位PCI需要90個引腳),這使得板的佈局非常棘手並且消耗了寶貴的印刷電路板(PCB)空間。 在高總線頻率下,每個信號的距離僅限於PCB板上的短跡線。 在具有多個卡插槽的基於插槽的系統中,終端不受控制,如果設計不當可能會導致問題。
在這裏插入圖片描述
總線設計存在負載限制,每個總線只允許少量設備。 添加橋設備以在橋後面提供具有新負載限制的另一總線克服了這種限制。 雖然這允許更多設備連接到系統,但是當訪問系統其他部分上的設備時,數據仍然流經中央總線。 每個橋都添加到系統中,延遲和擁塞會增加。 總線必須設計爲在滿載條件下工作,假設規範允許的最壞情況的設備數量,這從根本上限制了總線頻率。 總線的一個主要問題是它不能支持“開箱即用”的系統互連。 要使系統一起通信,需要單獨的互連,例如以太網(服務器到服務器通信)或光纖通道(存儲網絡)。

3.2 Switched Fabric Architecture 交換結構體系結構

交換結構是一種基於點對點交換機的互連,旨在實現容錯和可擴展性。 點對點交換結構意味着每個鏈路只有一個設備連接在鏈路的每一端。 因此,加載和終止特性得到很好的控制,並且(與總線架構不同),只允許一個器件,最壞的情況與典型情況相同,因此結構的 I/O 性能可以更高。
在這裏插入圖片描述
交換結構體系結構提供可擴展性,可通過向交換矩陣添加交換機並通過交換機連接更多終端節點來實現。 與共享總線架構不同,系統的總帶寬隨着額外交換機添加到網絡而增加。 設備之間的多條路徑可保持高帶寬,並提供故障安全的冗餘連接。

3.3 I/O Interconnect Comparison I/O互連比較

如今,許多標準都在爭奪互連市場的霸主地位。 與InfiniBand一起,包括PCI-X,光纖通道,3GIO,千兆以太網和RapidIO。
 
隨着PCI-X的推出,I/O互連市場的統治領導者試圖支持下一代高速系統。 雖然PCI不會完全消失,但其缺陷會使增長非常有限。 與InfiniBand進行比較是微不足道的。 工作在133Mhz的PCI-X是90針總線,扇出爲1。 這嚴重限制了其在市場上的影響力,並且沒有交換機的概念,PCI-X不提供可擴展性。 相比之下,InfiniBand每個子網支持64k節點,利用高端口密度交換機,每個連接只需要四個引腳。
 
另一個優點是InfiniBand物理層設備(PHY)相對於其他串行互連技術的低功耗要求。 InfiniBand銅PHY每端口僅需0.25瓦。 相比之下,千兆以太網PHY每端口大約需要2瓦。 通過實現千兆以太網PHY設計爲支持需要跨越至少100米的連接的局域網(LAN)來解釋數量級差異。 InfiniBand僅處理Internet數據中心內的服務器和存儲連接,因此無需跨越如此長的時間,因此可以以更低的功耗運行
水平。
 
較低的PHY功率導致InfiniBand的集成和RAS成本優勢。在這種情況下,半導體集成受到芯片最大功率水平的限制(這次摩爾定律進入熱力學第一定律)。因此,對於千兆以太網,將PHY集成到具有8,16,24或更多端口的交換機中可能是不可行的。相比之下,隨着InfiniBand降低PHY功率要求,這些更高端口數的器件完全可以實現。將多芯片系統簡化爲單芯片解決方案可以節省大量成本並節省面積。無論PHY是否集成,InfiniBand的功耗降低都可爲高可用性應用節省成本。高可用性要求在電源故障時使用不間斷電源。在這個滾動停電增加的時代,這是設施管理者在設計其互聯網基礎設施時必須考慮的一個非常現實的問題。即使是中等規模的網絡,使用InfiniBand也可以節省數百瓦的功率,同時相應地降低了成本。

InfiniBand是唯一可用於PCB的架構,同時還提供“開箱即用”的系統互連(通過光纖或銅纜佈線)。

表2“功能比較”檢查InfiniBand和其他互連硬件在硬件中支持的功能。 每種其他技術都有嚴重的缺點,即InfiniBand是系統級互連的明確選擇。 最值得注意的是,InfiniBand是唯一一種設計用於PCB的架構,同時還提供“開箱即用”系統互連(通過光纖或銅纜佈線)。 InfiniBand設計爲 I/O 結構,可在硬件中提供傳輸級連接,因此是唯一可在單個統一結構上支持所有數據中心的技術。 這些技術中的每一種都爲它們旨在解決的特定問題帶來了好處,但只有InfiniBand爲集羣,通信和存儲提供單一的統一有線互連。
 
以下是許多計算I / O技術之間的功能比較。
在這裏插入圖片描述
a. InfiniBand 1x鏈路的原始帶寬爲2.5Gb / s(每對雙絞線)。 數據帶寬減少了8b / 10b編碼,1X爲2.0Gb / s,4X爲8Gb / s,12x爲24Gb / s。 與半雙工總線相比,全雙工串行連接產生兩倍的數據速率:4/16/48 Gb / s。
b. 2Gb光纖通道的帶寬爲2.1Gb / s,但實際原始帶寬(由於8b / 10b編碼)低20%或大約1.7Gb / s(全雙工的兩倍)。
c. 值適用於8位/ 16位數據路徑峯值@ 1GHz操作。 支持125,250和500 MHz的速度。
d. 3GIO鏈路的原始帶寬爲2.5Gb / s(每對雙絞線)。 數據帶寬減少了8b / 10b編碼到2.0Gb / s,4.0Gb / s,8.0Gb / s等。與半雙工總線相比,全雙工串行連接產生兩倍的數據速率:4,8,16 ,Gb / s等
e. 1x鏈路的引腳數爲4個引腳,4X鏈路使用16個引腳,12X鏈路使用48個引腳。
f. 內存分區使多個主機能夠基於密鑰以受控方式訪問存儲端點。 對該特定端點的訪問由該密鑰控制,因此不同的主機可以訪問網絡中的不同元素。
g. 基於8,16,32位HyperTransport(它可以支持2和4位模式),每秒高達8億次傳輸操作(可支持400 MHz DDR模式)。 錯誤管理功能將在未來的規範修訂版中進行細化。
h. 3GIO具有1X,2X,4X,8X,16X和32X通道寬度。 銅,光學和新興物理信號媒體。

3.4 Interconnects Complement InfiniBand 互連補充InfiniBand

其中一些新的互連實際上是InfiniBand的關鍵推動因素,因爲它們提供了對新級別處理器帶寬的訪問,並允許InfiniBand將此帶寬擴展到盒外。 正在開發3GIO,HyperTransport和Rapid I/O等技術,這將爲InfiniBand提供系統邏輯的連接點,可支持4X InfiniBand鏈路所需的20 Gb / s甚至12X所需的60 Gb / s InfiniBand鏈接。 這些技術很好地補充了InfiniBand。

3.5 Bandwidth Out of the Box 帶寬開箱即用

InfiniBand架構的一個基本方面是“帶寬開箱即用”的概念。 InfiniBand能夠獲取帶寬,這在歷史上一直被困在服務器內部,並在整個結構中擴展。 InfiniBand可以有效地利用10Gb / s的性能,通過在結構中的任何位置精確地提供數據。歷史上,帶寬越來越遠離CPU數據傳輸。圖4“開箱即帶寬”說明了這一現象和歷史趨勢。盒外是指從處理器到I / O的帶寬,用於集羣或處理器間通信(IPC)的服務器之間的帶寬,到存儲,以及一直到數據中心邊緣的帶寬。當前現有技術的處理器具有能夠以25Gb /秒與其他處理器和存儲器通信的前端總線,但是現在可用的PCI-X系統將“盒外”可用帶寬限制爲僅8Gb / s。數據中心內的實際帶寬進一步受限,IPC帶寬限制爲1或2 Gb / s,光纖通道或存儲通信最多爲2 Gb /秒,系統之間的通信(通常通過以太網)限制爲1Gb / s。這說明了從處理器到數據中心的邊緣,丟失了一個數量級的帶寬。
在這裏插入圖片描述
如上所述,新的互連,即3GIO,HyperTransport或Rapid I / O可用於將I / O帶寬提高到30甚至60 Gb / s。 隨着新處理器和/或系統芯片組合並這些互連,克服了當前的PCI限制。 從那裏可以釋放InfiniBand的帶寬,因爲HCA將連接到這些互連,這使得集羣,通信和存儲都可以以本機InfiniBand速度連接。 自2001年以來,正在部署1X(2.5 Gb / s)和4X(10 Gb / s)鏈路,2003年標誌着部署12X或30 Gb / s鏈路。
 
下圖說明了InfiniBand如何通過對數據中心帶寬進行歷史考察來釋放開箱即用的帶寬。大約1998年:英特爾的奔騰II提供了世界級的性能,但計算服務器架構的整體設計將處理器帶寬限制在“內部”。進一步的數據從處理器傳播帶寬越低,直到在邊緣100Mb /秒時丟失超過一個數量級的帶寬。大約1999年:奔騰III提高了處理器性能,但方程式保持不變。由於數據中心仍然在邊緣僅以100 Mb /秒的速度通信,因此帶寬會隨着距離而丟失。在2000年和2001年,奔騰4和所有其他數據中心子系統提高了帶寬,但方程仍然保持不變:從處理器到數據中心邊緣的帶寬損失超過一個數量級。 InfiniBand架構改變了這個等式。 InfiniBand架構提供從處理器到數據中心邊緣的20Gb / s帶寬(彙總波特率),包括LAN / WAN和存儲連接。 InfiniBand支持Bandwidth Out of the Box,允許處理器級帶寬一直移動到數據中心的邊緣。此外,InfiniBand架構在2003年提供了12倍的擴展空間,可擴展至60 Gb / s。
 
值得注意的是,InfiniBand不僅可以提供帶寬,還可以在需要的地方提供數據; 通過RDMA從系統內存傳輸到系統內存。 InfiniBand在硬件中實現可靠的有序傳輸連接,因此數據傳輸效率極高,延遲較低且無需主機CPU輔助。 與以太網相比,這是一個巨大的好處,它具有更長的延遲並且消耗大量CPU週期來運行TCP堆棧。

4.0 InfiniBand Technical Overview InfiniBand技術概述

InfiniBand是一種基於交換機的點對點互連架構,爲當今的系統開發,具有擴展下一代系統要求的能力。 它既可以在PCB上作爲組件到組件的互連,也可以在“開箱即用”的機箱到機箱互連上運行。 每個鏈路都基於四線2.5 Gb / s雙向連接。 該體系結構定義了分層硬件協議(物理,鏈路,網絡,傳輸層)以及用於管理設備之間的初始化和通信的軟件層。 每個鏈路可以支持多種傳輸服務以實現可靠性和多個優先化的虛擬通信信道。
 
爲了管理子網內的通信,該體系結構定義了一個通信管理方案,負責配置和維護每個InfiniBand元素。 管理方案定義爲錯誤報告,鏈路故障轉移,機箱管理和其他服務,以確保穩固的連接結構。
 
InfiniBand功能集:

  • 分層協議 - 物理,鏈路,網絡,傳輸,上層
  • 基於分組的通信
  • 服務質量
  • 三個鏈路速度
    • 1X - 2.5 Gb / s,4線
    • 4X - 10 Gb / s,16線
    • 12X - 30 Gb / s,48線
  • PCB,銅纜和光纖電纜互連
  • 子網管理協議
  • 遠程DMA支持
  • 多播和單播支持
  • 可靠的傳輸方法 - 消息隊列
  • 通信流控制 - 鏈路級和端到端

4.1 InfiniBand Layers InfiniBand分層

InfiniBand架構分爲多個層,每個層彼此獨立運行。 如圖5所示,“InfiniBand層”InfiniBand分爲以下幾層:物理層,鏈路層,網絡層,傳輸層和上層。
在這裏插入圖片描述

4.1.1 Physical Layer

InfiniBand是一種綜合架構,可定義系統的電氣和機械特性。 這些包括用於光纖和銅介質的電纜和插座,背板連接器和熱插拔特性。
在這裏插入圖片描述
InfiniBand在物理層定義了三種鏈路速度,1X,4X,12X。 每個單獨的鏈路是四線串行差分連接(每個方向兩根線),提供2.5 Gb / s的全雙工連接。 這些鏈接如圖7“InfiniBand物理鏈路”所示。
在這裏插入圖片描述
這些鏈路的數據速率和引腳數顯示在表3“InfiniBand鏈路速率”中。
在這裏插入圖片描述

注意:InfiniBand 1X鏈路的帶寬爲2.5 Gb / s。 實際原始數據帶寬爲2.0 Gb / s(數據爲8b / 10b編碼)。 由於鏈路是雙向的,因此相對於總線的總帶寬是4 Gb / s。 大多數產品都是多端口設計,其中聚合系統I / O帶寬將是累加的。

InfiniBand爲“開箱即用”通信定義了多個連接器。 定義了光纖和銅纜連接器以及用於機架安裝系統的背板連接器。

4.1.2 Link Layer

鏈路層(以及傳輸層)是InfiniBand架構的核心。 鏈路層包括分組佈局,點對點鏈路操作以及本地子網內的切換。

  • Packets 包
    鏈路層內有兩種類型的數據包,即管理和數據包。 管理數據包用於鏈路配置和維護。 使用管理數據包確定設備信息,例如虛擬通道支持。 數據包最多可攜帶4k字節的事務有效負載。
  • Switching 交換
    在子網內,在鏈路層處理分組轉發和交換。 子網內的所有設備都具有由子網管理器分配的16位本地ID(LID)。 子網內發送的所有數據包都使用LID進行尋址。 鏈路級別切換將數據包轉發到數據包中本地路由標頭(LRH)內的目標LID指定的設備。 LRH存在於所有分組中。
  • Qos 服務質量
    InfiniBand通過虛擬通道(VL)支持QoS。 這些VL是獨立的邏輯通信鏈路,它們共享單個物理鏈路。 每個鏈路最多可支持15個標準VL和一個管理通道(VL 15)。 VL15是最高優先級,VL0是最低優先級。 管理數據包僅使用VL15。 每個器件必須支持最小VL0和VL15,而其他VL是可選的。 當數據包遍歷子網時,定義服務級別(SL)以確保其QoS級別。 沿路徑的每個鏈路可以具有不同的VL,並且SL爲每個鏈路提供期望的通信優先級。 每個交換機/路由器都有一個SL到VL映射表,由子網管理器設置,以保持每個鏈路上支持的VL數量的適當優先級。 因此,InfiniBand架構可以通過交換機,路由器和長期運營來確保端到端的QoS。

InfiniBand通過虛擬通道(VL)支持QoS。 這些VL是獨立的邏輯通信鏈路,它們共享單個物理鏈路。

  • Credit Based Flow Control 基於信用的流量控制
    流控制用於管理兩個點對點鏈路之間的數據流。 流量控制基於每個VL進行處理,允許單獨的虛擬結構使用相同的物理介質保持通信。 鏈路的每個接收端向鏈路上的發送設備提供信用,以指定可以在不丟失數據的情況下接收的數據量。 每個設備之間的信用傳遞由專用鏈路分組管理,以更新接收器可以接受的數據分組的數量。 除非接收方通告表示接收緩衝區空間可用的信用,否則不傳輸數據。
  • Data integrity 數據的完整性
    在鏈路級,每個數據包有兩個CRC,變量CRC(VCRC)和不變CRC(ICRC),可確保數據完整性。 16位VCRC包括數據包中的所有字段,並在每一跳重新計算。 32位紅十字國際委員會僅涵蓋不會從一跳到另一跳的字段。 VCRC提供兩跳之間的鏈路級數據完整性,紅十字國際委員會提供端到端數據完整性。 在像以太網這樣只定義單個CRC的協議中,可以在設備中引入錯誤,然後重新計算CRC。 即使數據已損壞,下一跳的檢查也會顯示有效的CRC。 InfiniBand包括紅十字國際委員會,因此當引入誤碼時,將始終檢測到錯誤。

4.1.3 Network Layer

網絡層處理從一個子網到另一個子網的數據包路由(在子網內,不需要網絡層)。 子網之間發送的數據包包含全局路由標頭(GRH)。 GRH包含數據包源和目標的128位IPv6地址。 數據包根據每個設備的64位全局唯一ID(GUID)通過路由器在子網之間轉發。 路由器使用每個子網內的適當本地地址修改LRH。 因此,路徑中的最後一個路由器將LRH中的LID替換爲目標端口的LID。 在網絡層內,InfiniBand數據包在單個子網內使用時不需要網絡層信息和報頭開銷(這可能是Infiniband系統區域網絡的情況)。

4.1.4 Transport Layer

傳輸層負責有序數據包傳送,分區,信道多路複用和傳輸服務(可靠連接,可靠數據報,不可靠連接,不可靠數據報,原始數據報)。 傳輸層還在發送時處理事務數據分段,並在接收時重新組裝。 基於路徑的最大傳輸單元(MTU),傳輸層將數據劃分爲適當大小的分組。 接收器基於包含目的地隊列對和分組序列號的基本傳輸報頭(BTH)重新組裝分組。 接收方確認數據包,發送方接收這些確認,並使用操作狀態更新完成隊列。 Infiniband Architecture爲傳輸層提供了重大改進:所有功能都在硬件中實現。
 
InfiniBand爲數據可靠性指定了多種傳輸服務。 表4“支持服務”描述了每種支持的服務。 對於給定的隊列對,使用一個傳輸級別。
在這裏插入圖片描述

4.2 InfiniBand Elements InfiniBand元素

InfiniBand架構定義了多個用於系統通信的設備:通道適配器,交換機,路由器和子網管理器。 在子網內,每個端節點必須至少有一個通道適配器,並且子網管理器必須設置和維護鏈路。 所有通道適配器和交換機必須包含處理與子網管理器通信所需的子網管理代理(SMA)。
在這裏插入圖片描述

4.2.1 Channel Adapters 通道適配器

通道適配器將InfiniBand連接到其他設備。 有兩種類型的通道適配器,主機通道適配器(HCA)和目標通道適配器(TCA)。
 
HCA爲主機設備提供接口,並支持InfiniBand定義的所有軟件動詞。 動詞是一種抽象表示,它定義了客戶端軟件和HCA功能之間所需的接口。 動詞不指定操作系統的應用程序編程接口(API),而是定義OS供應商開發可用的操作
API。
 
TCA提供與InfiniBand的I / O設備的連接,以及每個設備的特定操作所需的HCA功能子集。

4.2.2 Switch 交換機

交換機是InfiniBand結構的基本組件。 交換機包含多個InfiniBand端口,並根據第二層本地路由標頭中包含的LID將數據包從其中一個端口轉發到另一個端口。 除管理數據包外,交換機不會消耗或生成數據包。 與通道適配器一樣,交換機需要實現SMA以響應子網管理數據包。 交換機可以配置爲轉發單播數據包(到單個位置)或多播數據包(尋址到多個設備)。
在這裏插入圖片描述

4.2.3 Router 路由器

InfiniBand路由器將數據包從一個子網轉發到另一個子網,而不消耗或生成數據包。 與交換機不同,路由器讀取全局路由標頭以根據其IPv6網絡層地址轉發數據包。 路由器在下一個子網上使用適當的LID重建每個數據包。

4.2.4 Subnet Manager 子網管理器

子網管理器配置本地子網並確保其繼續運行。 子網中必須至少有一個子網管理器才能管理所有交換機和路由器設置,以及在鏈路出現故障或新鏈路出現時進行子網重新配置。 子網管理器可以位於子網上的任何設備中。 子網管理器通過每個專用SMA(每個InfiniBand組件都需要)與子網上的設備進行通信。
 
只要只有一個處於活動狀態,就可以有多個子網管理器駐留在子網中。 非活動子網管理器(備用子網管理器)保留活動子網管理器的轉發信息的副本,並驗證活動子網管理器是否正常運行。 如果活動子網管理器出現故障,備用子網管理器將接管責任,以確保結構不會隨之崩潰。

4.3 Management Infrastructure 管理基礎設施

InfiniBand體系結構定義了兩種系統管理方法,用於處理與子網中的設備關聯的所有子網啓動,維護和一般服務功能。 每種方法都有一個專用隊列對(QP),子網上的所有設備都支持該隊列,以區分管理流量和所有其他流量。

4.3.1 Subnet Management 子網管理

第一種方法是子網管理,由子網管理器(SM)處理。 子網中必須至少有一個SM才能處理配置和維護。 這些職責包括LID分配,SL到VL映射,鏈路啓動和拆卸以及鏈路故障轉移。

所有子網管理都使用QP0,並且僅在高優先級虛擬通道(VL15)上處理,以確保子網內的最高優先級。

所有子網管理都使用QP0,並且僅在高優先級虛擬通道(VL15)上處理,以確保子網內的最高優先級。 子網管理數據包(SMP - 發音爲“sumps”)是QP0和VL15上允許的唯一數據包。 此VL使用不可靠數據報傳輸服務,並且不遵循與鏈路上的其他VL相同的流控制限制。 子網管理信息在鏈路上的所有其他流量之前通過子網傳遞。
 
子網管理器通過滿足所有配置要求並在後臺處理它們來簡化客戶端軟件的職責。

4.3.2 General Services 一般服務

InfiniBand定義的第二種方法是通用服務接口(GSI)。 GSI處理機箱管理,帶外I / O操作以及與子網管理器無關的其他功能等功能。 這些功能與子網管理不具有相同的高優先級需求,因此GSI管理數據包(GMP - 發音爲“gumps”)不使用高優先級虛擬通道VL15。 所有GSI命令都使用QP1,並且必須遵循其他數據鏈路的流量控制要求。

4.4 InfiniBand Support for the Virtual Interface Architecture (VIA) 支持虛擬接口架構(VIA)

虛擬接口體系結構是一種分佈式消息傳遞技術,既獨立於硬件又與當前網絡互連兼容。 該體系結構提供了一個API,可用於在集羣應用程序中的對等體之間提供高速和低延遲通信。
 
InfiniBand是在考慮VIA架構的情況下開發的。 InfiniBand通過使用執行隊列從軟件客戶端卸載流量控制。 這些隊列稱爲工作隊列,由客戶端啓動,然後留給InfiniBand進行管理。 對於設備之間的每個通信通道,在每端分配工作隊列對(WQP - 發送和接收隊列)。 客戶端將事務放入工作隊列(工作隊列條目 - WQE,發音爲“wookie”),然後由通道適配器從發送隊列處理該事務併發送到遠程設備。 當遠程設備響應時,通道適配器通過完成隊列或事件將狀態返回給客戶端。
 
客戶端可以發佈多個WQE,通道適配器的硬件將處理每個通信請求。 然後,通道適配器生成完成隊列條目(CQE),以按適當的優先順序爲每個WQE提供狀態。 這允許客戶端在處理事務時繼續執行其他活動。
在這裏插入圖片描述

4.5 Realizing the Full Potential of Blade Computing 實現刀片計算的全部潛力

爲了充分實現基於刀片式服務器計算的TCO(總擁有成本)優勢,刀片技術必須至少提供以下核心功能:可擴展性,容錯,熱插拔,QoS,羣集,支持I / O連接(兩者都兼備) 內存和消息語義),可靠性,冗餘,故障轉移的主動備用,互連可管理性和錯誤檢測。 理解爲什麼IT Manager在部署的每個新服務器平臺中都需要這些屬性,這是相當直接的。 如本文所述,所有這些屬性都是在InfiniBand架構中本地提供的,它們將真正釋放刀片計算所承諾的全部潛力。 使用InfiniBand架構實現服務器,交換機和I / O刀片的全部潛力的白皮書(文檔#2009WP)詳細探討了屬性和TCO優勢。

5.0 總結

行業領導者的共同努力已經成功地將InfiniBand從技術演示轉變爲第一次真正的產品部署。 IBTA目前擁有超過220個成員,規範已經成熟,多家供應商公開展示了工作芯片和系統,並且InfiniBand芯片供應商之間的互操作性已得到證明。 InfiniBand架構的優勢非常明顯,包括:支持RAS(可靠性,可用性,可維護性),既可以開箱即用,也可以實現帶寬開箱即用的結構,以及未來的可擴展性。
 
IBTA的願景是通過InfiniBand技術及其作爲服務器,通信和存儲互連的結構來改進和簡化數據中心。想象一下,由服務器組成的數據中心都緊密地聚集在一起。這些服務器只有處理器和內存,通過InfiniBand端口連接到存儲和通信。這樣可以通過虛擬接口羣集實現更高的處理器性能,更高的處理器和內存密度(因爲大多數外圍設備已經移出服務器機架),以及更大的(InfiniBand)I / O帶寬。最重要的是,所有這些改進都基於爲RAS設計的架構。現在想象所有這些都包含了升級現有服務器的靈活性,儘管是PCI(由3GIO升級)和InfiniBand Server Blades。隨着越來越多的企業和消費者更頻繁地以更高的帶寬利用互聯網,Infiniband的迅速普及繼續受到歡迎。

6.0關於Mellanox

Mellanox是InfiniBand半導體的領先供應商,爲服務器,通信,數據存儲和嵌入式市場提供包括交換機,主機通道適配器和目標通道適配器在內的完整解決方案。 Mellanox Technologies已經在兩代10 Gb /秒InfiniBand設備上提供了超過100,000個InfiniBand端口,包括InfiniBridge,InfiniScale和InfiniHost設備。如今,Mellanox InfiniBand互連解決方案的性能是以太網的八倍以上,是專有互連性能的三倍以上。該公司得到了包括戴爾,IBM,英特爾投資,廣達電腦,Sun Microsystems和Vitesse在內的企業投資者的大力支持,以及Bessemer Venture Partners,Raza Venture Management,Sequoia Capital,US Venture Partners等公司的強大風險投資支持。該公司在加利福尼亞州聖克拉拉,Yokneam和特拉維夫以色列設有主要辦事處。有關Mellanox的更多信息,請訪問www.mellanox.com

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章