吹盡黃沙始見金,歷述CPU架構與工藝

吹盡黃沙始見金,歷述CPU架構與工藝


http://www.sina.com.cn 2006年04月18日 19:28 走進中關村


【編者按】這篇文章的作者叫濮元愷,是蘭州一個正在上高二的學生。他利用寒假的時間寫出了這篇稿件,確實讓人驚訝和欽佩。姑且不論他的 觀點是否正確,單是組織這麼多內容對於一個高中生來說,就屬相當不易。我們企盼着小濮在未來的日子中,繼續關注IT業,關注計算機產品,關注走進中關村網 站。



    四十多年前,Intel的創始人戈登摩爾(Gordon Moore)通過長期的對比,研究後發現:CPU中的部件(我們現在所說的晶體管)在不斷增加,其價格也在不斷下降。“隨着單位成本的降低以及單個集成電 路集成的晶體管數量的增加;到1975年,從經濟學來分析,單個集成電路應該集成65000個晶體管。”Intel此後幾年的發展都被摩爾提前算在了紙 上,使人們大爲驚奇,“摩爾定律”也名聲大振。爲了讓人們更直觀地瞭解摩爾定律,摩爾及其同事總結出一句極爲精練的公式 “集成電路所包含的晶體管每18個月就會翻一番”。


吹盡黃沙始見金,歷述CPU架構與工藝


 
    從摩爾定律之誕生後,芯片產業有了前進的方向:爲了不斷提升性能,工程師要做的是不斷向芯片中添加足夠多的晶體管。但這個方向很快就受到了挑 戰,Intel在70年代末就發現摩爾定律的預測偏離了實際,並做出了少許修改。其實摩爾定律起初只是簡單觀察的結果,不過卻由Intel不斷擴充和執行 下以及成爲他們最喜歡的方式,同時也是這家技術水平高、生產潛力大的企業的最有利可圖的模式。
在2003年ISSCC大會上,摩爾本人就指出了摩 爾定律中的另一個錯誤,即晶圓尺寸的發展並沒有按照摩爾定律預測在2003年發展到53英寸,現在只發展到12英寸(300mm)。2003年摩爾本人提 出對摩爾定律質疑的主要原因,就是半導體生產工藝在0.18mm後漏電率快速上升,到0.13mm後更爲嚴重。漏電率快速上升現象的出現,使得90nm、 65nm及以後的半導體生產工藝、尤其是需要高速運行的CPU生產工藝面臨嚴峻挑戰。

    摩爾定律在拉動着芯片產業飛奔的同時,在現實中的表現也常常讓人們擔心。國際半導體技術藍圖機構(ITRS)爲IC組件的發展起草了一份雄心勃勃的發展規 劃,同時也提出警告,晶體管數目的增長速度顯著快於設計能力的提高速度。不過,ITRS認爲在設計技術之外,設計成本纔是對半導體技術可持續發展的最大威 脅,並導致設計和生產力之間產生鴻溝。在CPU生產廠商方面,按照摩爾定律這個速度發展,到本世紀末,處理器生產線投資至少是數千億乃至上萬億美元。誰投 資得起?投資能回收嗎?IT產業能在這個方向上健康發展下去嗎?
但另外一個現象引起又我們注意:摩爾認爲,儘管摩爾定律並不總是正確的,卻似乎總 可以延續下去。按照專業人士的分析,CPU的發展在觸及摩爾定律的極限之前,將朝着更高性能、更低功耗、更低成本的方向發展,在可預見的未來,CPU的處 理能力將繼續保持高速增長,小型化、集成化永遠是發展趨勢。

    總之在過去的四十多年,半導體工業的發展突破了一個又一個看似不可能跨越的瓶頸,神奇地遵循着摩爾定律,如今的半導體科技已經達到了幾乎不可能爲之的地 步。而這一切都得益於生產技術的不斷進步,可以預見伴隨着處理器的發展,生產技術這種發展趨勢仍將持續下去。

    從實際情況來看,Intel最新發布的桌面級CPU——Pentium Extreme Edition 955,使用更先進的65 nm製程,集成了3億7600萬個晶體管。已走入不惑之年的摩爾定律面臨不少問題,比如計算機整體架構落伍、漏電率和功耗、經濟鴻溝,但其還繼續着輝煌, 這是爲什麼呢。下文將從生產工藝和芯片設計的角度闡述當今CPU的發展趨勢,希望能解答大家對當今CPU發展的少許不解,以便讓大家火眼金睛看清這場精彩 紛呈的CPU鬥爭。



   1、CPU的生產過程

    要了解CPU的生產工藝,我們需要先知道CPU是怎麼被製造出來的。讓我們分幾個步驟學習CPU的生產過程。

(1) 硅提純

    生產CPU等芯片的材料是半導體,現階段主要的材料是硅Si,這是一種非金屬元素,從化學的角度來看,由於它處於元素週期表中金屬元素區與非金屬元素區的 交界處,所以具有半導體的性質,適合於製造各種微小的晶體管,是目前最適宜於製造現代大規模集成電路的材料之一。


吹盡黃沙始見金,歷述CPU架構與工藝



    在硅提純的過程中,原材料硅將被熔化,並放進一個巨大的石英熔爐。這時向熔爐裏放入一顆晶種,以便硅晶體圍着這顆晶種生長,直到形成一個幾近完美的單晶 硅。以往的硅錠的直徑大都是200毫米,而CPU廠商正在增加300毫米晶圓的生產。

(2)切割晶圓

    硅錠造出來了,並被整型成一個完美的圓柱體,接下來將被切割成片狀,稱爲晶圓。晶圓才被真正用於CPU的製造。所謂的“切割晶圓”也就是用機器從單晶硅棒 上切割下一片事先確定規格的硅晶片,並將其劃分成多個細小的區域,每個區域都將成爲一個CPU的內核(Die)。一般來說,晶圓切得越薄,相同量的硅材料 能夠製造的CPU成品就越多。

(3)影印(Photolithography)

    在經過熱處理得到的硅氧化物層上面塗敷一種光阻(Photoresist)物質,紫外線通過印製着CPU複雜電路結構圖樣的模板照射硅基片,被紫外線照射 的地方光阻物質溶解。而爲了避免讓不需要被曝光的區域也受到光的干擾,必須製作遮罩來遮蔽這些區域。這是個相當複雜的過程,每一個遮罩的複雜程度得用 10GB數據來描述。

(4)蝕刻(Etching)

    這是CPU生產過程中重要操作,也是CPU工業中的重頭技術。蝕刻技術把對光的應用推向了極限。蝕刻使用的是波長很短的紫外光並配合很大的鏡頭。短波長的 光將透過這些石英遮罩的孔照在光敏抗蝕膜上,使之曝光。接下來停止光照並移除遮罩,使用特定的化學溶液清洗掉被曝光的光敏抗蝕膜,以及在下面緊貼着抗蝕膜 的一層硅。

    然後,曝光的硅將被原子轟擊,使得暴露的硅基片局部摻雜,從而改變這些區域的導電狀態,以製造出N井或P井,結合上面製造的基片,CPU的門電路就完成 了。

(5)重複、分層

    爲加工新的一層電路,再次生長硅氧化物,然後沉積一層多晶硅,塗敷光阻物質,重複影印、蝕刻過程,得到含多晶硅和硅氧化物的溝槽結構。重複多遍,形成一個 3D的結構,這纔是最終的CPU的核心。每幾層中間都要填上金屬作爲導體。Intel的Pentium 4處理器有7層,而AMD的Athlon 64則達到了9層。層數決定於設計時CPU的佈局,以及通過的電流大小。

(6)封裝
    這時的CPU是一塊塊晶圓,它還不能直接被用戶使用,必須將它封入一個陶瓷的或塑料的封殼中,這樣它就可以很容易地裝在一塊電路板上了。封裝結構各有不 同,但越高級的CPU封裝也越複雜,新的封裝往往能帶來芯片電氣性能和穩定性的提升,並能間接地爲主頻的提升提供堅實可靠的基礎。

(7) 多次測試

    測試是一個CPU製造的重要環節,也是一塊CPU出廠前必要的考驗。這一步將測試晶圓的電氣性能,以檢查是否出了什麼差錯,以及這些差錯出現在哪個步驟 (如果可能的話)。接下來,晶圓上的每個CPU核心都將被分開測試。


吹盡黃沙始見金,歷述CPU架構與工藝



    由於SRAM(靜態隨機存儲器,CPU中緩存的基本組成)結構複雜、密度高,所以緩存是CPU中容易出問題的部分,對緩存的測試也是CPU測試中的重要部 分。

    每塊CPU將被進行完全測試,以檢驗其全部功能。某些CPU能夠在較高的頻率下運行,所以被標上了較高的頻率;而有些CPU因爲種種原因運行頻率較低,所 以被標上了較低的頻率。最後,個別CPU可能存在某些功能上的缺陷,如果問題出在緩存上,製造商仍然可以屏蔽掉它的部分緩存,這意味着這塊CPU依然能夠 出售,只是它可能是Celeron等低端產品。

    當CPU被放進包裝盒之前,一般還要進行最後一次測試,以確保之前的工作準確無誤。根據前面確定的最高運行頻率和緩存的不同,它們被放進不同的包裝,銷往 世界各地。

2、不斷進步的生產工藝

    隨着生產工藝的進步,CPU應該是越做越小?可爲什麼現在CPU好像尺寸並沒有減少多少,那麼是什麼原因呢?實際上CPU廠商很希望把CPU的集成度進一 步提高,同樣也需要把CPU做得更小,但是因爲現在的生產工藝還達不到這個要求。
生產工藝這4個字到底包含些什麼內容呢,這其中有多少高精尖技術 的匯聚,CPU生產廠商是如何應對的呢?下文將根據上面CPU製造的7個步驟展開敘述,讓我們一起了解當今不斷進步的CPU生產工藝。

(1)晶圓尺寸

    硅晶圓尺寸是在半導體生產過程中硅晶圓使用的直徑值。硅晶圓尺寸越大越好,因爲這樣每塊晶圓能生產更多的芯片。比如,同樣使用0.13微米的製程在 200mm的晶圓上可以生產大約179個處理器核心,而使用300mm的晶圓可以製造大約427個處理器核心,300mm直徑的晶圓的面積是200mm直 徑晶圓的2.25倍,出產的處理器個數卻是後者的2.385倍,並且300mm晶圓實際的成本並不會比200mm晶圓來得高多少,因此這種成倍的生產率提 高顯然是所有芯片生產商所喜歡的。


吹盡黃沙始見金,歷述CPU架構與工藝



    然而,硅晶圓具有的一個特性卻限制了生產商隨意增加硅晶圓的尺寸,那就是在晶圓生產過程中,離晶圓中心越遠就越容易出現壞點。因此從硅晶圓中心向外擴展, 壞點數呈上升趨勢,這樣我們就無法隨心所欲地增大晶圓尺寸。

    總的來說,一套特定的硅晶圓生產設備所能生產的硅晶圓尺寸是固定的,如果對原設備進行改造來生產新尺寸的硅晶圓的話,花費的資金是相當驚人的,這些費用幾 乎可以建造一個新的生產工廠。不過半導體生產商們也總是盡最大努力控制晶圓上壞點的數量,生產更大尺寸的晶圓,比如8086 CPU製造時最初所使用的晶圓尺寸是50mm,生產Pentium 4時使用200mm的硅晶圓,而Intel新一代Pentium 4 Prescott則使用300mm尺寸硅晶圓生產。300mm晶圓被主要使用在90納米以及65納米的芯片製造上。

(2)蝕刻尺寸

    蝕刻尺寸是製造設備在一個硅晶圓上所能蝕刻的一個最小尺寸,是CPU核心製造的關鍵技術參數。在製造工藝相同時,晶體管越多處理器內核尺寸就越大,一塊硅 晶圓所能生產的芯片的數量就越少,每顆CPU的成本就要隨之提高。反之,如果更先進的製造工藝,意味着所能蝕刻的尺寸越小,一塊晶圓所能生產的芯片就越 多,成本也就隨之降低。比如8086的蝕刻尺寸爲3μm,Pentium的蝕刻尺寸是0.80μm,而Pentium 4的蝕刻尺寸當前是0.09μm(90納米)。目前Intel的300mm尺寸硅晶圓廠可以做到0.065μm(65納米)的蝕刻尺寸。

    此外,每一款CPU在研發完畢時其內核架構就已經固定了,後期並不能對核心邏輯再作過大的修改。因此,隨着頻率的提升,它所產生的熱量也隨之提高,而更先 進的蝕刻技術另一個重要優點就是可以減小晶體管間電阻,讓CPU所需的電壓降低,從而使驅動它們所需要的功率也大幅度減小。所以我們看到每一款新CPU核 心,其電壓較前一代產品都有相應降低,又由於很多因素的抵消,這種下降趨勢並不明顯。

    我們前面提到了蝕刻這個過程是由光完成的,所以用於蝕刻的光的波長就是該技術提升的關鍵。目前在CPU製造中主要是採用2489埃和1930埃(1 埃=0.1納米)波長的氪/氟紫外線,1930埃的波長用在芯片的關鍵點上,主要應用於0.18微米和0.13微米制程中,而目前Intel是最新的90 納米制程則採用了波長更短的1930埃的氬/氟紫外線。

    90納米的晶體管大小(左)與流行感冒病毒的大小(右)比較:


吹盡黃沙始見金,歷述CPU架構與工藝



    以上兩點就是CPU製造工藝中的兩個因素決定,也是基礎的生產工藝。這裏有些問題要說明一下。Intel是全球製造技術最先進且擁有工廠最多的公司 (Intel有10家以上的工廠做CPU),它掌握的技術也相當多,後面有詳細敘述。AMD和Intel相比則是一家小公司,加上新工廠Fab36,它有 3家左右的CPU製造工廠。同時AMD沒有能力自己研發很多新技術,它主要是通過戰略合作關係獲取技術。

    在0.25微米制程上,AMD和Intel在技術上處於同一水平,不過在向0.18微米轉移時落在了後面。在感覺無法獨自趕上Intel之後,AMD和摩 託羅拉建立了戰略合作伙伴關係。摩托羅拉擁有很多先進的電子製造技術,用於Apple電腦PowerPC的芯片HiPerMOS7(HiP7)就是他們完 成的;AMD在獲得授權後一下子就擁有了很多新技術,其中部分技術甚至比Intel的0.13微米技術還要好。現在AMD選擇了IBM來共同開發65納米 和45納米制造技術。它選擇的這些都是相當有前景的合作伙伴,特別是IBM,一直作爲業界的技術領袖,它是第一個使用銅互連、第一個使用低K值介電物質、 第一個使用SOI等技術的公司。AMD獲得的大多數技術很先進,而且對生產設備的要求不高,生產成本控制的很低,這也是AMD的優勢。


吹盡黃沙始見金,歷述CPU架構與工藝



    圖爲AMD的新工廠Fab36中採用的APM 3.0 (Automated Precision Manufacturing)技術,可進一步實現製造的自動化,效率化。同時AMD還建造了自己的無塵實驗室。

(3)金屬互連層

    在前面的第5節“重複、分層”中,我們知道了不同CPU的內部互連層數是不同的。這和廠商的設計是有關的,但它也可以間接說明CPU製造工藝的水平。這種 設計沒有什麼好說的了,Intel在這方面已經落後了,當他們在0.13微米制程上使用6層技術時,其他廠商已經使用7層技術了;而當Intel準備好使 用7層時,IBM已經開始了8層技術;當Intel在Prescott中引人7層帶有Low k絕緣層的銅連接時,AMD已經用上9層技術了。更多的互連層可以在生產上億個晶體管的CPU(比如Prescott)時提供更高的靈活性。

7 層金屬銅互連技術顯微圖片:


吹盡黃沙始見金,歷述CPU架構與工藝



    我們知道當晶體管的尺寸不斷減小而處理器上集成的晶體管又越來越多的時候,連接這些晶體管的金屬線路就更加重要了。特別是金屬線路的容量直接影響信息傳送 的速度。在90納米制程上,Intel推出了新的絕緣含碳的二氧化硅來取代氟化硅酸鹽玻璃,並同時表示這可以增加18%的內部互連效率。

3、CPU製造工藝前進方向

    在現有常規工藝的支撐下,CPU很難再向前發展,並且遇到越來越多的障礙,接下來討論CPU的繼續發展方向。

    目前存在着兩種泄漏電流:首先是門泄漏,這是電子的一種自發運動,由負極的硅底板通過管道流向正極的門;其次是通過晶體管通道的硅底板進行的電子自發從負 極流向正極的運動。這個被稱作亞閾泄漏或是關狀態泄漏(也就是說當晶體管處於“關”的狀態下,也會進行一些工作)。這兩者都需要提高門電壓以及驅動電流來 進行補償。這種情況自然的能量消耗以及發熱量都有負面的影響。

    現在讓我們回顧一下場效應晶體管中的一個部分——在門和通道之間的絕緣二氧化硅(silicon dioxide)薄層。這個薄層的作用就相當於一個電子屏障,用途也就是防止門泄漏。很顯然,這個層越是厚,其阻止泄漏的效果就越好。不過還要考慮它在通 道中的影響,如果我們想要縮短通道(也就是減小晶體管體積),就必須減少這個層。在過去的10年中,這個薄層的厚度已經逐漸達到整個通道長度的1/45。 目前,處理器廠商們正在做的是使這個層越來越薄,而不顧隨之增加的門泄漏。不過這個方式也有它的限度,Intel的技術員說這個薄層的最小厚度是2.3納 米,如果低於這個厚度,門泄漏將急劇增大。這也是摩爾本人提到的“漏電率快速上升”而制約摩爾定律繼續前進。

    到目前爲止,處理器廠商還沒有對亞閾泄漏做什麼工作,不過這一情況很快就要改變了。操作電流和門操作時間是標誌晶體管性能的兩個主要參數,而亞閾泄漏對兩 者有不小的影響。爲了保證晶體管的性能,廠商們不得不提高驅動電流來得到想要的結果。這點在主板的供電系統和電源規範中有明顯體現,我們也可以理解爲什麼 越來越多的供電和散熱規範是Intel等CPU廠商提出的。

(1)SOI技術

    在所有的解決方案中,SOI(Silicon on Insulator,絕緣層上覆硅)看上去最有前景。關鍵很其實現很簡單:晶體管通過一個更厚的絕緣層從硅晶元中分離出來。

    這樣做具有很多優點:首先,這樣在晶體管通道中就不會再有不受控制的電子運動,也就不會對晶體管電子特性有什麼影響;其次,在將閾值電壓加載到門電路上 後,驅動電流出現前通道電離的時間間隔也減小了,也就是說,晶體管“開”和“關”狀態的切換性能提高了,這可是晶體管性能的第二大關鍵性能參數;同時在速 度不變的情況下,我們可以也可以降低閾值電壓,或是同時提高性能和降低電壓。

    舉個例子來說,如果閾值電壓保持不變,性能可以提高30%,那麼如果我們將頻率保持不變而將注意力集中在節能性上,那麼我們也可以節省大約50%的能耗。 此外,在晶體管本身可以處理各種錯誤時(比如空間例子進入通道進行電離),通道的特性也變得容易預計了。而SOI不足在於必須減小晶體管漏極/源區域的深 度,而這將導致晶體管阻抗的升高。同時,SOI技術也意味着晶體管的成本提高了10%。

(2)Low K互連層技術

    關於功耗和漏電問題,還有一個大家耳熟能詳的技術就是Low K互連層。

    在集成電路工藝中,有着極好熱穩定性、抗溼性的二氧化硅一直是金屬互聯線路間使用的主要絕緣材料。隨着互聯中導線的電阻(R)和電容(C)所產生的寄生效 應越來越明顯,低介電常數材料替代傳統絕緣材料二氧化硅也就成爲集成電路工藝發展的又一必然選擇。
這裏的“K”就是介電常數,Low K就是低介電常數材料。Low K技術最初由IBM開發,當時的產業大背景是——隨着電路板蝕刻精度越來越高,芯片上集成的電路越來越多,信號干擾也就越來越強,所以IBM致力於開發、 發展一種新的多晶硅材料。IBM聲稱,Low K材料幫助解決了芯片中的信號干擾問題。而Intel的目的是使用低介電常數的材料來製作處理器導線間的絕緣體。這種Low K材料可以很好地降低線路間的串擾,從而降低處理器的功耗,提高處理器的高頻穩定性。
下表爲幾種材料的相對介電常數:

材料/比較項目 Low k SiO2 CVD* SiO2 High k

相 對介電常數 2.50 3.80 4.50 25.00

* SiO2 CVD 代表等離子CVD方法制造的SiO2材料

    在技術應用中,Low K材料最先出現在ATi的9600XT中。CPU方面,Prescott是Intel第一款使用7層帶有Low K絕緣層的CPU,同時使用了Carbon-Doped Oxide(CDO)(最新的低介電常數CDO絕緣體)絕緣體材料,減少了線到線之間的電容,允許提高芯片中的信號速度和減少功耗。

    Low K目前最大缺點是實際應用效果不明顯,需要新的材料的介入,比如從有機材料領域尋求發展。Low K材料的開發速度可以說是空前迅猛的,前景光明,不過還是需要注意一些老問題,比如工藝不成熟、銅互連技術缺陷還有良品率問題等。此外目前的Low K材料可靠性還不高,不很耐高溫並且比較脆弱,nVidia就已經指出Low K材料的易碎性。

(3)應變硅技術


吹盡黃沙始見金,歷述CPU架構與工藝



    晶體管的結構也將有所改變。不過不是在數量上,通道的長度將從60nm下降到50nm,而其他東西則保持不變。實際上其他的東西都是由通道長度決定的,不 論是晶體管的速度還是大小。爲了保證有利因素髮揮同時減小負面因素,Intel會在應變硅(Strained silicon)以及新型的銅和含碳二氧化硅互連的低溫介電體上使用開始使用90納米技術。這個氧化物薄層非常的薄,僅有1.2納米厚,完全符合上面提到 的厚度爲通道長度的1/45,卻超過了Intel自己宣稱的2.3納米的極限值。

    應變硅的使用目的和二氧化硅層相反,它是作爲電子的屏蔽出現的,在其下的通道則是電子由發射端到接受端的路徑,電流越高,電子運動就越容易,速度也越快。 通道一般是用硅製成的,不過在使用應變硅之後,就需要將原子拉長,那麼電子在通過稀疏的原子格時遇到的阻抗就大大下降。Intel宣稱只需將硅原子拉長 1%,就可以提高10-20%的電流速度,而成本只增加了2%。

(4)Terahertz晶體管與High K & DST

    在未來Intel會怎樣繼續發展下去呢?首先,他們一定會榨乾硅晶體管的最後一分“油水”,將其稱作Terahertz晶體管(Terahertz就是 1THz,也就是1000GHz)。目前Intel已經做出了15納米晶體管的樣品,很顯然這種晶體管將帶來巨大的功耗、發熱量和電流泄漏,如果沒有什麼 技術改進就毫無實用價值。

    做出Terahertz晶體管首先需要使用不同的原料,因爲他們決定了晶體管的基本特性。二氧化硅作爲門和通道之間的絕緣層已經不適合,而需要用到 Intel稱爲高K門電介質(High K gate Dielectric)的材料,Intel宣佈已經完成了對High-K金屬門電路晶體管技術的研發。這種材料對電子泄漏的阻隔效果是二氧化硅的 10000倍。這項技術也通常被簡寫爲“High K”技術,我們有必要做簡單瞭解。High K的全稱應該是High K金屬門電路晶體管技術,它是由Intel負責研發的下一代CMOS晶體管的門電路部分。它採用高介電常數的材料,以達到更高的單個晶體管容量。容量大則 意味着轉換週期短,這意味着晶體管速度將更快,同時功耗比傳統的CMOS晶體管降低很多,Intel說的100倍不會是誇張,在現有工藝水平前提下功率可 能只會有20-80倍的降低,但是在45nm技術運用後,100倍以上決對有可能!這意味着採用High-K材料晶體管的處理器,在發熱量方面將有很大優 勢。

    第二個關鍵是稱爲耗盡型襯底晶體管(depleted substrate transistor,DST)的技術,實際上就是SOI技術的變形。Intel一直對SOI技術抱着懷疑的態度,如果沒有什麼重要的理由他們是不會使用 這項技術的。Intel認爲使用完全耗盡的通道沒有任何好處,這個通道會變得非常的小,大約10納米左右,這是很難製造的,同時也因爲發射端和接受端的距 離減小急劇提高了外接晶體管的阻抗。

    因此DST技術就被推出了,相比SOI技術其做了一些改動來消除它的主要缺點,通道非常的短,同時也做了完全貧化處理。在一定的控制下驅動電流可以立即在 門(晶體管門)通過,並不會電離在絕緣層下通道的任何部分。另外,這樣也可以表現出虛擬通道增長的效果,從而體現出浮點晶體管的特性。

    不過這隻相當於在一個通常的SOI晶體管上使用了完全耗盡通道,主要的問題仍然是外接晶體管陡然增加的阻抗上。所以,Intel不會讓通道的長度影響到 DST晶體管上的漏極和接受端的長度。Intel通過降低關狀態電壓有效的將產品工作電壓降到了1.0V以下,並表示可以在2010年達到0.6V。

    上面技術的兩項技術,(High k)高k門電介質和(DST)耗盡型襯底晶體管就是爲了適應Intel的Terahertz晶體管而開發的,Intel宣稱其可以做出32納米的晶體管 (15nm的通道長度),0.75V電壓和1THz運行頻率。

(5)來自AMD的努力

    AMD也在HiP8中使用SOI技術,而不像Intel那樣只准備用在1000Ghz的晶體管上。從理論上來講,這樣做同時也會伴隨着晶體管外部阻抗上升 到一個目前無法接受的程度。不過AMD已經做好的準備,我們很快就講見到更快頻率的晶體管。從以往的經驗我們可以知道,新的晶體管將使得性能增加20%, 同時還將降低泄漏電流和門極寬度。

    AMD也在計劃着未來,他們計劃用高K值的金屬硅酸鹽(metal-silicate)絕緣材料取代目前的二氧化硅,這樣將使得泄漏電流下降100倍,而 不像Intel說的可以達到10000倍。

    同時,AMD還計劃使用SiGe(鍺化硅)來取代純粹的硅作爲驅動電流的通道,和Intel在90納米制程上採用的應變硅有些類似。不過下面這個物理現象 將不能忽視:硅晶格會根據下面的元素的晶格調整自己(在這裏就是鍺了),並將延展一些。根據IBM的說法,這樣潛在的阻抗將會比普通的硅下降70%,而晶 體管性能將提高35%。

4、晶體管的革命,Intel VS AMD

    傳統的晶體管架構已經在微電子學使用了將近40年:經典的晶體管包括1個可以控制的電極和在它下面的電流順序通過的另外兩個電極。就這樣,晶體管架構呈現 出一種二維的狀態。

普通晶體管結構和普通晶體管顯微結構:


吹盡黃沙始見金,歷述CPU架構與工藝

 

(1)Intel的三門晶體管
 
    Intel在90年代末提出了新一代晶體管架構——三門晶體管。因爲集成了衆多的晶體管,同時還有着多重的門和通道,因此在微電子學領域,CPU被定義爲 一種三維架構。三門晶體管就是在單個晶體管內集成三個通道。


吹盡黃沙始見金,歷述CPU架構與工藝


 
    三門晶體管就是在單個晶體管內集成三個通道。從微觀上看,三門晶體管的門(gate)和發射器(emitter)和收集器被設置在了普通晶圓的表面,並且 他們之間相互交叉。這樣就構成了一種有趣的結構:門電子束的截面是一個矩形,頂端和兩側都是門電極,這樣一來,三門晶體管就像是反轉的傳統晶體管樹立在了 晶圓上。

    傳統的晶體管架構呈現是一種二維的狀態,包括1個可以控制的電極和在它下面的電流順序通過的另外兩個電極。普通晶體管只在頂端有一個門電極,也就需要更多 的時間在通道上切換充電狀態以改變晶體管的開光狀態,同時也需要更高的電壓。


吹盡黃沙始見金,歷述CPU架構與工藝



    而通過三門晶體管技術,理論上只需要有幾束相同的電波,我們就夠通過使用極限的電壓打開晶體管,幾乎同時門會被出現在所有電波上的電流所阻斷。所以通過晶 體管的總共電流等於每個交叉點的電流的和。假設我們有6個輸出,其中三個發射器,三個接收器,那我們可以得到與普通晶體管相同的電流,但相同情況下所需要 輸入的電壓量卻要低3倍。或者相同的電壓可以驅動3倍於以前的電流,總體效率將提高20%,這便是三門晶體管的魅力所在。而且三門晶體管的高效性降低了對 通道長度的要求,可以大大降低對生產技術的要求。不過這項技術目前還停留在實驗室階段,還沒有在Prescott上應用,有望在2010年前開始實際應 用。

    當然,製造這樣小的晶體管當然需要更爲先進的蝕刻技術來支持。目前Intel仍在使用舊的248納米設備來製造90納米的芯片,當然有些關鍵部位是由 193納米設備完成的(大約佔20%)。在完成了向193納米設備的過渡之後,Intel就可以輕鬆一下了。這些設備可以一直用到65納米晶體管芯片的生 產。

    在此之後,EUV(Extreme Ultraviolet,極端遠紫外光)光刻技術將開始發揮。EUV與傳統的紫外線蝕刻技術是一樣的,都是將激光通過掩膜,把掩膜上的電路圖轉移動晶圓之 上,不過EUV設備使用的是134埃波長的激光,採用部分波長極短的電磁頻譜,因此能實現更小的蝕刻尺寸。Intel已在2005年開始使用EUV技術, 同時開始45納米制程的芯片生產了。

(2)AMD的雙門晶體管

    AMD也在考慮多門晶體管,特別是雙門的,這也和Intel喜愛的三門晶體管不同,沒有上方的控制電極。AMD的這種鰭式場效晶體管(Fin Field-Effect Transistor,FINFET)也就比Intel的更高一些,同時發送/接受電子束也要窄一些。該晶體管的寬度大約爲門極寬度的1/3,這在光刻技 術可以引起一些問題,同時也是少數的“小”而不“好”的情況之一。不過不管怎樣,FINFET和其他的三維晶體管一樣,相對於傳統的晶體管都有很多的優 勢,特別是它縮小了通道長度。總的說來,AMD在手上有足夠的籌碼來回應Intel的1000GHz晶體管和三維晶體管。目前AMD已離開摩托羅拉,轉而 和IBM加強合作,HiP8成爲AMD和摩托羅拉合作的最後一項技術。

(3)新型封裝,勢在必行

    有了如此先進的製造技術,自然需要堅實的基礎。好馬配好鞍,面對日新月異的生產工藝,新型封裝勢在必行。BBUL(Bumpless Build-Up Layer,無凸塊增層)封裝技術早在2001年10月份就對外披露,當時Intel宣稱這項技術爲“未來微處理器設計”,準備在5到6年之內投入使用。 它將會成爲未來65nm、45nm時代最流行的封裝技術。據稱,這項封裝技術可以讓CPU在未來6年的發展道路上高枕無憂,因爲它能使CPU內集成的晶體 管數量達到10億個,並且在高達20GHz的主頻下運行。

    傳統的FC-PGA工藝是:CPU核心與基板彼此分開製造,封裝時將CPU核心放在基板中央的預定位置上,並通過微細錫球(tiny solder balls)將它們焊接在一起,CPU核心自然就位於封裝的最上方。


吹盡黃沙始見金,歷述CPU架構與工藝



    BBUL如上圖。它通過取消這種中間的微細錫球,將裸晶(Die)直接放入封裝基質中,從而把組成一個處理器(諸如Pentium 4)的6~7個金屬層減少大約3層,使處理器的厚度達到只有1mm。Intel聲稱,利用這項新技術,基本上可以把一個封裝包看作是圍繞着硅核“生長”起 來的,避免了損害芯片效率的焊接過程以及影響硅核性能的溶化步驟。由於數據的必經之路縮短了,新的封裝技術會幫助提高芯片的整體運算速度和性能。BBUL 封裝的結構中,CPU內核看起來就被深埋在內部,這樣就避免了繁雜的焊接過程以及影響硅核性能的熔化步驟,讓CPU核心可以更直接、更貼合地與基板連接。

    BBUL封裝的關鍵在於芯片直接放入封裝中,這樣處理器的高度被大大降低,封裝也輕了不少,對於移動設備也更加適用。BBUL增強了在單一封裝中設計多個 硅元件的能力。與目前FC-PGA的一體化封裝方式不同,BBUL技術可以將兩個CPU核分別封裝,這樣可以避免在生產時即使只有一個核出現問題就要扔掉 整個處理器的窘境,對於更多核心的處理器來講,節約的成本將是可觀的。儘管在未來4~5年內BBUL技術纔有可能真正實用化,但其爲處理器設計和製造所帶 來的影響將極其深遠。

    還有值得重視的一個優點:由於省去了焊接的Bump(電極),使硅核和封裝基層一次生成,在降低能耗的同時提高了處理器的穩定性。初步估計,BBUL將比 目前的封裝方式降低25%的能耗,進而可減少高頻產生的熱量。

5、存儲器編譯器的升級

    根據Emerging Memory Technologies公司的稿件,在器件從90nm工藝節點向更高密度工藝發展的道路上,同時支持1T和6T存儲器的新一代存儲器編譯器與測試和可制 造性工具及高質量存儲器的緊密鏈接,可使架構師充分地利用數十億的晶體管規模,從而續寫摩爾定律。
Gordon Moore在1965年就曾預言集成電路規模每年將翻一倍,他還預言1975年會出現內含65,000個元件的單芯片器件。現在,移動設備存儲卡所用的每 個芯片包含的晶體管數量已接近100億個。雖然對用戶來說運算功耗成本一直在按摩爾定律下降,但製造商的成本卻是相反的趨勢。設計世界一流的系統級芯片 (SoC)器件的實際成本在每次工藝升級時都會翻倍上漲。新器件複雜性的提高是成本上升的主要原因。

    對SoC架構師來說,複雜性和成本並不是唯一需要考慮的因素。功耗在不斷髮展的半導體工業中又成爲重要問題,你願意擁有高性能的手提電腦而只能運行於“電 池模式”,或是手持先進的掌上設備,卻時時發愁剩餘的電量。因此電池壽命和功耗逐漸成爲主要的設計焦點,並迅速替代速度成爲人們追求的另一目標。

    同時隨着集成電路設計變得越來越複雜,成本也在不斷提高。一個採用先進的90nm技術設計的2,000萬門SoC成本大約爲2,500萬美元,需要140 位硬件設計師和170位軟件設計師。即使有了這些大型團隊,設計週期也是相同的,或比前幾代有所減少。上市時間將成爲市場表現的主要差異,將直接關係到產 品的利潤空間。

    新一代存儲器編譯器將會解決這些問題。SoC架構師在定義目標集成電路時,需要評估和比較許多潛在配置。可以用優秀的現成EDA工具定義不同抽象層次的邏 輯。爲了正確評估包括存儲器在內的整個系統性能,架構師需要知道不同配置下的存儲器行爲內容。這一問題的解決方案對1T高密度存儲器和傳統的6T SRAM存儲器來說都是一樣的,即用存儲器編譯器爲上千種不同的存儲器配置提供精確的面積、性能、時序和功耗評估。

    新一代存儲器編譯器增加了以往只用於定製存儲器配置的功能。基於激光-熔絲的修復、內部誤碼檢測和糾正(ECC)、同時支持1T和6T存儲器陣列等就是存 儲器編譯器帶來的一些功能例子。隨着SoC設計複雜度的提高,這些集成電路的價值也在與日俱增。達到最佳的良品率優化變得越來越重要。爲了獲得良品率分析 所需的測試信息,必須配置BIST控制器,並使之與存儲器編譯器一起工作。必須將面向完全存儲器陣列可視性的修復策略、列擾碼或ECC直通模式等細節從存 儲器編譯器傳達給BIST編譯器,從而使存儲器模塊能在最終SoC設計中得到有效完整的測試。

6、小結

    讓我們簡單回顧一下:提高晶圓尺寸和提高蝕刻精度可以讓CPU容納更多的晶體管,同時也維護着摩爾定律。但在0.18mm工藝後,由於漏電等其他原因引起 的功耗、發熱等因素,讓單純提高這兩項工藝沒有實際價值。

    緊接着,一次次的技術革新開始了,各大公司開始研究新技術、新材料,提出新的解決方案。SOI技術將在90納米以及更細微的製造技術上發揮作用,來緩解泄 漏、提高晶體管性能。芯片互連層將由Low K材料完成,門和通道之間的絕緣層將由High K材料完成,它們能有效提高電氣性能。新的元素(如諸元素)將會使晶體管的性能進一步提高。爲了承載未來的CPU,新的封裝技術也蓄勢待發。未來還將改革 晶體管結構。

    以上就是當今CPU的生產工藝概述及展望,這些激動人心的技術是芯片產業在摩爾定律的引導下不斷創造、發明的;同時它們也支撐着摩爾定律奇蹟般地跨越了一 個又一個障礙,形成相輔相成的關係。

    但由於CPU架構障礙,處理器成倍增加的晶體管數量並不能轉化爲成倍增長的性能。從現在的情況開來,摩爾定律將會在某一天失去作用,已經有人認識到了這一 點,並開始談論如何對處理器架構進行徹底的改進,這是一件令人高興的事。CPU性能的增長也不能永遠依賴增加晶體管數量,其架構設計也是當今芯片產業的一 個熱門話題。下面,我們將關注重點轉移到這裏,讓理性的分析再度引導我們走進各種CPU架構。



1、一款架構引導一代產品

    一款架構引導一代產品,這是CPU產業中的規矩,也是一種很合理的發展方式。當我們對不斷提升的頻率感到厭煩時,一款新的架構又能再次引起人們的注意。一 般來說,新的架構有以下幾個優勢:採用新工藝、新技術(指令集等),有利於提升主頻、降低功耗、降低生產成本。新架構的提出讓我們看到了新希望,但也同時 牢牢套住一代產品的發展路線。我們很容易預測出這個架構下產品的性能增長線路,如果平時關注生產技術,我們還預測出這個架構的生命有多長。再加上以往的經 驗,我們可以知道它是否是一款過度架構,它帶出來的產品是否值得購買。

    下文將從各方面介紹現在市場上的3中架構Pentium 4、Pentium M、Athlon 64。然後將提出一些CPU設計中的優秀技術,比如多核心,PARROT等。

(1)Pentium 4架構

    作爲全球出貨量最大的一款CPU,我們沒有理由不把它放到第一的位置討論。Intel其實早在1998年就開始籌劃Pentium 4的研發工作了。但由於這是一個創世代的偉大架構,於是在2000年11月20日才正式發佈。

    Pentium 4包含三代核心,Willamette、Northwood和Prescott,它們統一於一個架構——NetBrust(網絡爆發)。這個架構是以前不 敢想的,它的特性是擁有冗長流水線以帶來較高的頻率,Willamette和Northwood用到了20級流水線,Prescott則達到了31級,它 們的最高頻率分別是2.0G、3.4G和3.8G。按照Intel當初的預測,Pentium 4在NetBrust的帶領下能達到10GHz的頻率。

    NetBrust流水線過長,造成了單位頻率效能低下,高性能要有更高的頻率保證,而這一要求就轉嫁到生產工藝上。聯想到前面我們講到的Intel一個又 一個的新工藝,我們可以確定,採用NetBrust是Intel當初過分自信的結果,也是它爲了維持摩爾定律而對未來估計不足的結果。最後一顆 Pentium 4是Prescott 3.8G,它沒有達到Intel當初的豪言壯志,甚至連原計劃的4G也沒能夠得着。

    圖爲Intel桌面級CPU的路線圖,我們看到很多產品沒有按時發佈,並且實際產品沒有達到當初的預計水平。


吹盡黃沙始見金,歷述CPU架構與工藝


 
    Pentium 4也有一些相當前衛的設計,比如我們熟悉的追蹤緩存結構,四倍速QDR技術等。因爲Pentium 4的流水線長達20級,每一級分配到的計算工作量相對於以往的CPU更少,所以處理速度更快,這也就帶來了CPU頻率的提高。但是超長流水線帶來的負面效 應不得小視,就是分支預測的效能下降——如果有一個分支預測出錯,那麼整個任務得從計算流水線頭部重新開始執行。這對於CPU是致命的打擊,因爲分支預測 出錯是計算過程中常有的事,流水線短的CPU能有效緩解這個問題,性能消耗不大,但擁有冗長流水線的NetBrust架構受不了這個。

    爲此,Intel把一級緩存的數據緩存(I-Cache)和指令緩存(D-Cache)分開,把(I-Cache)剝離出來,單獨形成Trace Cache(追蹤緩存)。它的容量只有21KB,位於指令解碼器和內核第一級計算流水線之間,作用是存儲指令解碼器產生的微操作,以備流水線出現分支預測 出錯時直接調用,無須要求解碼單元再次捕捉相同指令並加以解碼。這種結構的使用很大程度上降低了分支預測出錯對CPU的威脅,稱得上是一個成功的設計,但 它也是在當時的情況下逼出來的技術,它的作用也只是緩解壓力和增強效率。Intel在NetBrust架構中添加了追蹤緩存,另Pentium 4的表現沒有讓人太失望。QDR技術在系統總線上同時傳輸4個不同的64位數據流達到了4倍速率的效果,所以我們看到Pentium 4的外頻是200MHz而前端總線卻是800MHz,數據吞吐量明顯增大。這兩項設計在Pentium 4架構中一直沿用至今,是Pentium 4的頂樑柱。HT(超線程技術)是在Northwood時代開啓的,它當初被寄予厚望能顯著提升CPU效率,最大程度消耗高頻CPU浪費掉的資源,特別是 在CPU繁忙的多任務模式下,傳說有30%的性能提升。這是一項相當好的技術,但用在Pentium 4上最終效果不大。
Intel早已發現 NetBrust架構的缺陷,並在Prescott上全力彌補,這些彌補都是在分支預測的改進方面。首先是增加了TLB(變換索引緩衝區)的入口數量,因 爲CPU要讀取內存時要從TLB中調用虛擬地址到物理地址的映射,而且調用的命中率幾乎在99%以上,Prescott具有128個TLB緩衝,是 Northwood的2倍。隨後又增加了ITC(指令追蹤緩存),Prescott比Northwood多30%的ITC面積,可以追蹤多達4096條虛 擬地址,又是Northwood的2倍。在FBTB(前端分支目標緩衝)方面,精確到了4路48bit,而Northwood則是4路32bit。而且 Prescott的FBTB還可以包含預測信息,每一個信息都可以用2bit的位寬維持16個雙峯計算結果。這2bit可以表示爲:0=不被採納,1=大 概不被採納,2=或許被採納,3=被採納。這是一種相當先進的預測信息。在總體地址線上Prescott使用了48bit虛擬地址,因爲在內存管理中,虛 擬地址可以表示比物理地址更爲寬廣的範圍,這個位寬已與當時最先進的AMD K8核心相同。所有這些都是在覈心上的重大改進,它們共同協作幫助Pentium 4增加分支預測的準確性,但結果不是很明顯。

    Pentium 4一向以高頻率、高功耗、高發熱著稱,原本不應該這樣。因爲按照預計,先進的生產工藝完全滿足Pentium 4架構的需要,但現在看來,Pentium 4是一個對生產工藝要求相當高的架構,Intel拼命努力還是沒有滿足它的胃口。當然我們不能以這些劣勢來埋沒Pentium 4的功績,Pentium 4仍然是活躍在市場上生命力相當強的CPU。但不可否認的是曾輝煌一時的NetBrust架構現在事實上已成爲Intel爲自己設置的枷鎖。

(2)Pentium M架構

    在Pentium 4架構飽受非議的同時,Intel移動產品線上活躍着一個設計優秀又有潛力的架構——Pentium M。Pentium M的卓越表現得益於它沒有采用長流水線設計,雖然在前端總線、接口方面與Pentium 4類似,但Pentium M實際上是在Pentium III基礎上發展的。
Pentium M的流水線只有12級,這種保守的設計讓它能夠保持優秀的指令效能和較低的功耗水平。此外,Pentium M吸收了大量來自NetBrust架構的研究成果:其一、引入了QDR-speed四倍速前端總線技術,實現400MHz/533MHz前端總線運作,更 寬的總線有效增加了數據流量;其二,引入Mikro-Op-Fusion堆棧管理技術。Mikro-Op-Fusion是一個複雜的硬件堆棧管理器,它能 夠大幅改進分支預測的效率。

    在緩存方面,Pentium M的設計明顯優於Pentium 4:Pentium M擁有64KB一級緩存,指令(D-Cache)與數據(I-Cache)分開獨佔32KB。區別於Pentium 4的追蹤式緩存結構,Pentium M一級緩存不僅容量佔優,且使用了Write-back(回寫)模式,效率比Pentium 4採用的Write-through(直接寫入)模式更高,存取時間也大爲縮短。而且,Pentium M的二級緩存採用了8路聯合的運行模式,每路又被劃分成4個功耗區域,在專門的堆棧管理技術控制下,可以在CPU運行中關閉用不到的功耗區域。在任何一個 時間片內,只有1個功耗區域處於激活狀態下,其餘部分的功耗幾乎可以忽略不計。另外,Pentium M還採用了Intel第三代SpeedStep技術,支持以1MHz爲單位的無級平滑變速,在節能方面更領先。

    綜上所述,較短的流水線、低功耗緩存、取自NetBrust架構的最新成果以及先進的生產工藝,使Pentium M成爲CPU設計史上的一個經典。而Pentium M在性能方面也沒有另人失望,它始終於同一時代的桌面產品保持同步。到目前爲止,Pentium M家族中最高性能版本是Pentium M 770擁有2.13GHz主頻、2MB緩存,它與3.46GHz的Pentium 4 XE性能相當。形成鮮明對比的是,兩者的最高功耗分別是27W和135W,晶體管的規模則分別爲1.4億和1.78億。

    無論從哪個角度來看Pentium M在架構上都優於Pentium 4,作爲低功耗產品Intel讓Pentium M架構擔當移動產品也無可厚非,但是不是有點大材小用了呢?再補充一點,Pentium M架構是Intel在以色列的海爾法的CPU設計團隊開發出的,這個實驗室還提出了一項技術——PARROT,我們後面馬上要做敘述。

(3)Athlon 64架構
 
    這裏我們以AMD Athlon 64架構最具競爭力的高端代表——Opteron來做說明。

a、設計新型流水線


吹盡黃沙始見金,歷述CPU架構與工藝



    首先要明確的是Opteron微架構設計的首要目標是爲用戶提供新一代的性能。提供這一性能必須平衡兩個方面:一是更高的時鐘頻率。
二是更高的 IPC(單位時鐘性能)。

    達到更高的時鐘頻率必須有更長的流水線。從技術上來看,CPU廠商大都通過增加流水線級數(“超長流水線”)來實現工作頻率的提高,當然AMD也不例外。 增加流水線級數以後,各級的處理負擔就會減輕,工作頻率也容易提高。

    AMD64的流水線前端指令獲取與解碼邏輯標識被精簡,提供從解碼器到執行管道調度程序間更大的指令打包程度。爲適應這一改變,設計中重新定義了管道分級 以保持高度的頻率可測量性,結果比第七代微架構多出兩個管道分級,AMD的Opteron最終產品擁有12級整數運算流水線和17級浮點運算流水線。長流 水線可以帶來較高頻率,但流水線過長反而會影響CPU性能。爲此,AMD只有用新技術來彌補長流水線降低的IPC。爲了不使過長的流水線影響到分支預測的 準確性,Hammer核心在分支預測失誤之前流水線中可以容納更多指令數。爲了充分利用這個優勢,AMD需要一個更大的緩存來儲存這些指令。AMD這次採 用寬流水線,並填充了大量指令,就是爲了降低分支預測失誤的機率,在提升頻率的同時提升IPC。

b、集成DDR內存控制器



吹盡黃沙始見金,歷述CPU架構與工藝



    爲了徹底剷除CPU與內存間的瓶頸,儘可能減小內存到CPU的延遲時間,AMD把以往北橋芯片中的主要部分——內存控制器內建在CPU中。我們知道內存中 的數據被調往CPU要經歷多個環節,其中內存到芯片組的速度和芯片組到CPU的速度是產生延遲的罪魁禍首,已有過許多芯片組因爲設計失誤導致延遲過長而降 低性能。許多測試也表明Opteron的延遲時間表現很出色。集成DDR內存控制器看似簡單,其實更重要的一個作用是在SMP架構中建立高效的內存讀取機 制,這正是Opteron中SMP架構的精髓(下文將提到)。實測表明,集成內存控制器使Opteron系統的延遲大幅度低於Xeon、高頻P4等系統。 同時這項技術可以簡化芯片組的設計,nVidia支持AMD64位CPU的nForce3芯片組已省去了北橋芯片,成爲單芯片芯片組。

c、 HyperTransport總線 


吹盡黃沙始見金,歷述CPU架構與工藝



    HyperTransport(簡稱HT,超傳輸),是AMD爲Hammer開發的一種雙向的“點對點”高速數據傳輸總線,運行於處理器與芯片組或芯片組 間其它部分的連接中。在SMP架構中,處理器間也是通過內建額外的HT控制器進行連接的,AMD將這稱爲“glue less”(免中介)方式。HT本身具有很多的優點:高速、低延遲時間、結構緊湊。該總線最大可以提供6.4GB/s的帶寬,通過簡單的設定總線位寬(2 位到32位)和工作頻率(400MHz到1600MHz)來靈活改變總線的帶寬(100MB/s到6.4GB/s)。每個Opteron處理器都將集成3 個HT控制器,要這些多餘的總線又有什麼用途呢?答案是建立多處理器系統。圖中一個大方框表示一個CPU,CPU之間用HT連接。HB表示CPU內置的橋 接芯片,它與外部I/O設備也用HT連接。在這種方式下,2路(或多路)SMP架構的系統配置便不再依賴於芯片組的支持,雙處理器平臺的成本會大幅下降。
 
    此外,與K7結構相比Opteron擁有更爲出色的TLB結構,Opteron微架構增多了TLB入口的數量。通過把全局歷史計數器中雙峯計數器的數量增 至16K(是K7的4倍),Opteron處理器加強了分支預測功能來提供更高的性能,特別是在較大的工作負荷中。
Athlon 64架構可以說是AMD與Intel對抗中的一員大將,也是AMD設計最成功的架構之一。正是憑藉優秀的架構設計,AMD以一個小廠商的身份成功抗擊着 Intel這樣的超級大廠,也正是因爲它的存在,我們沒有看到一個CPU界的微軟。

2、CPU設計中的優秀技術

(1)多核心技術

    當消費者還在享受着CPU主頻提升所給我們帶來的急速快感時,Intel和AMD兩家公司卻不約而同的感受到了繼續按照摩爾定律提升CPU主頻的困難。 Intel於去年10月份宣佈了取消4GHz奔騰4處理器的開發計劃,AMD也表示其高端Athlon FX57將是很長一段時間內主頻最高的產品。究竟是什麼原因使得頻率提升如此困難?首先,目前CPU單純依靠提升主頻已經很難大幅度提升CPU的性能,從 而減緩了消費者對高頻CPU的需求;其次當CPU主頻達到2GHz以上的時候,處理器功耗也達到了近100W,這已經是目前風冷散熱技術的極限,很明顯單 核CPU在主頻提升乏力的情況下已經顯得力不從心。

    “多核心CPU解決方案是摩爾定律發展的必然產物,”Intel分析員Nathan這樣說道。多核心技術是以後的發展方向,也是當今最熱門的技術。

    所謂多核心,多核CPU技術是在同一個硅晶片(Die)上集成了多個獨立物理核心,在實際工作中多顆核心協同工作,以達到性能倍增的目的。最早提出多核心 CPU想法的人或公司現在已經無從考究,但對此表現最積極的屬SUN、IBM和Intel。它們聯手開發多線程微處理器和多核心微處理器,並且已經取得了 一定的成果。IBM公司的Power4芯片首先使用了2個獨立的處理核心,高端的Sun Microsystems也使用了多核心的處理芯片。Intel即Itanium2之後,公佈了代號爲Tanglewood的下一代Itanium發展計 劃,其中這款全新的Itanium芯片最高將包含16顆獨立的處理器。加上超線程技術,這款處理器能夠處理高達32個線程!不能不說十分的驚人。

    多核心技術在應用上的優勢有兩個方面,一方面是爲用戶帶來更強大的計算性能,更重要的一方面則是可滿足用戶同時進行多任務處理和多任務計算環境的要求。


吹盡黃沙始見金,歷述CPU架構與工藝



        圖爲Intel的Pentium Extreme Edition 955內部結構圖,可以很清楚的看到在一個CPU內有兩個完全相同的內核。對於多核心CPU的功耗問題,IBM最近發佈的一項稱爲“eFUSE”的芯片調 變技術,應用了該技術的芯片能夠根據運算任務的多少打開或關閉芯片中的另外一個備用的處理器內核,從而讓多核心CPU在性能和能耗方面有更好的表現。

      多核心CPU的實現看似簡單,但Intel與AMD卻在技術方面分道揚鑣。
   
     從集成的角度來看,業界通常把多處理器計算機系統分爲“緊耦合”和“鬆耦合”兩種形態。一般我們將通過將多臺計算機組成集羣(Cluster)的方式來 增加計算機系統處理器數量以提高計算性能的做法就是一種相對比較寬鬆的耦合。這樣的計算機羣有各自獨立的CPU、內存、主板和顯卡等周邊配件;而通過 SMP(對稱多處理器)架構來增加處理器數量的方式就是一種緊耦合,比如一板雙芯的方式就是一種比較典型的SMP計算機耦合方式。假如,我們將2個處理器 放在一個芯片內,或者一塊基板上,這就是一種更加緊密的耦合狀態,業界將它稱爲CMP(單芯片多處理器)架構。簡而言之,AMD和Intel新推出的雙核 心處理器都符合CMP的邏輯架構,他們之間並無詳細的區分。

    下面給大家帶來的是AMD和Intel雙核CPU技術示意圖:


吹盡黃沙始見金,歷述CPU架構與工藝



吹盡黃沙始見金,歷述CPU架構與工藝


    AMD Athlon64 X2處理器與Intel雙核P4的最大不同在於仲裁通信系統的位置。AMD的雙核心技術使用的是一種特別的架構,AMD內部稱其爲Direct Connect architecture。與Pentium D相比,它增添了“系統請求接口”(System Request Interface,SRI)和“交叉開關”(Crossbar Switch)。它們的作用是對兩個核心的任務進行仲裁、及實現核與核之間的通信。AMD的兩個核心會把請求放在系統請求對列(SRQ)中,當資源允許的 時候,會把任務分配給合適的核心去處理,整個過程都在CPU內部完成,系統性能也就此大大提高。同時也可以讓每個核心都有獨享的I/O帶寬、避免資源爭 搶,實現更小的內存延遲,並提供了更大的擴展空間,讓雙核能輕易擴展成爲多核。而Intel的雙核產品就沒有按照這樣的思路來進行設計,它們將任務分配控 制單元和仲裁單元從CPU中脫離出來,放在北橋芯片中。因此Intel的雙核處理器也被稱爲是“兩顆處理器在一條前端總線上的簡單複合”。

    AMD認爲Intel僅僅是將2個完整的處理器核心簡單的集成在一起而已,它們非但沒有直接受到任務仲裁器的控制,而且還同時連接到一條帶寬有限的前端總 線上。這樣的設計架構勢必會造成2個處理器核心單元搶奪總線資源,從而影響性能。

    AMD當初堅持將內存控制器整合在CPU中,就是出於“距離越短,速度越快”的原則,從而降低延遲,提高系統效率。但是,Intel自信自己的芯片組系統 可以提供足夠的帶寬支持,即便將Pentium D的任務仲裁單元外置在北橋中,對於雙核處理器的系統來說造成的延遲和性能損失也是微乎其微的。

    看完了AMD與Intel的內部爭執,讓我們聽聽來自一個重要人物對多核心CPU的不同意見。nVidia的首席科學家David Kirk近日在斯坦福大學舉行的最新芯片技術研討會(Hot Chips conference)上說:CPU的多線程技術和多核心技術給現在的程序開發帶來了很多困難。Intel、AMD這樣的CPU製造商所使用的多線程和多 核心技術,看起來好像是使CPU的性能加倍,但是從本質上來說,並不能解決CPU主頻提升以及製造工藝的瓶頸,而多線程、多核處理器的出現對於遊戲開發人 員來說也形如雞肋,並不能從第二個核心中得到任何受益。多核CPU乃黔驢技窮之作。

    不論怎麼樣,AMD與Intel都在2005年完成了多核心CPU併成功在市場上發佈,取得了不錯的效益和迴應,雖業界還存在不同意見,但這項技術在未來 必將發揚光大從而普及。又因爲摩爾定律遭遇挑戰,半導體工藝面臨絕境,單芯片設計在性能上持續提高成問題,故雙核乃至多核的CPU結構將會流行起來,類似 於XBOX的PPU,CPU,GPU三芯片設計,處理器的邏輯結構可能會走上這種道路。到時一個CPU的幾個核心可能會更針對應用而開發。比如 Pentium M的邏輯結構爲移動計算而服務,而至強則爲服務器而優化。總之多核結構將是發展的趨勢。

(2)PARROT架構

    這是一個革命性的CPU架構,PARROT架構的提出標誌着Intel以後的研究方向徹底轉變!
 
   與Pentium M一樣,PARROT也是出自Intel在以色列海爾法的CPU實驗室。早在2003年,該實驗室的工程師們公開發表了一篇名爲

  “Power Awareness through Selective Dynamically Optimized Traces”(藉助選擇性動態優化線路實現功耗最優化)的技術論文。在論文中,研究者第一次提出“Power-Aware aRchitecture Running Optimized Traces”一詞,PARROT架構也由此得名。

    該論文提出一個新的構想:通過對動態執行線路進行優化,將能夠大幅度提高芯片的運行效率,使得在單位功耗條件下可獲得的運算性能得到大大提升。當然這個構 想是根據著名的“阿姆達爾法則(Amdahl’s law)”,該法則出自IBM 360大型機的主要開發人員Gene Amdahl之手,它的關鍵點便是“在計算機編程的並行處理中,少數必須順序執行的指令是影響性能的一個因素,即使增加新的處理器也不能改善運行速度。”

    基於阿姆達爾法則研究人員發現優化CPU的執行結構成爲提升順序指令效能的唯一方法。他們還發現,20%的程序代碼會佔去80%的CPU動態執行資源,這 類操作被稱作Hot execution(熱操作)的代碼要比冷操作代碼更規則、更容易預測、以及有着很長的不包含分支指令序列爲前提。在傳統的CISC處理器架構上,這類操 作會頻繁地讓CPU前端(Front-End)的解碼器和後端(Back-End)的動態執行調度單元經常地重複執行、傳輸同樣的代碼,消耗大量的電力。
 


吹盡黃沙始見金,歷述CPU架構與工藝



    爲此,PARROT架構針對這些操作進行了優化設計,NetBrust架構中Trace Cache進行了革命性改進,對Hot-Trace採取漸進式的排列優化,並且重新引入L1指令高速緩存D-Cache(減少“冷操作”的微操作佔用 Trace Cache),讓“冷操作”和“熱操作”分別運行在不同的執行電路上,大而降低運算單元的等待時間(例如緩存的潛伏期),提高“熱操作”的執行效率,以 “減少執行一條指令或者某項工作所需要的單位時間”的觀念來達到間降低耗電的目的。

    可以說,引入PARROT設計理念的CPU架構中,熱操作和冷操作擁有彼此獨立的取指和執行單元,但根據“多勞多得”的分配原則,熱操作被分配了更多的處 理資源。這樣設計所帶來的優勢是相當明顯的:不但執行單元(HOT EXEC)更加強大,而且擁有冷操作所沒有的單元,比如追蹤優化器(Trace Optimizer)、追蹤選擇過濾&構建(Trace Select Filter&Build)等,通過實際貢獻對CPU資源進行合理規劃,這就是PARROT的巧妙之處。

    可以看出,這個不起眼的追蹤優化器(Trace Optimizer)是PARROT架構在Trace Cache應用上的一大改新,也被認爲是PARROT的精髓所在。從目前看到的資料,PARROT的追蹤優化器幾乎就相當於一個能對代碼進行各種優化的小 型硬件編譯器。

    在Intel的範例中,一個原先包含28個微指令、7層指令樹,經過最佳化後,可以減少成10個微指令、2層指令樹,無論對於改善Trace Cache的空間利用、提升Trace的執行效率、增強Trace Cache的微指令分派率(Dispatch rate)以強化IPC、以及減少實際上所執行的微指令數目,都有着立竿見影的效果。


吹盡黃沙始見金,歷述CPU架構與工藝


 
    Intel表示,原先4-Wide OOO的Merom核心,結合PARROT架構的方式以及加倍的執行單元數目,可以提升平均約45%的IPC。這將使Intel的CPU發展理論由“頻率 第一”轉變爲“效率第一”,使用PARROT架構意味着Intel接受了一個新的架構並準備大力發展它,同時也否定了自己在過去堅定執行的路線。但是按照 通用的算法,新架構的性能只有10-20%的提高,PARROT架構真的有這麼神奇,還要看以後的實際表現。

   雖然在理論上PARROT架構可以極大提升執行單元的利用效率,但也有缺點:一個是將會大幅增加處理器的生產成本。要維持兩個執行管線之間的同步化、以確 保程序代碼的正確執行順序,就會大幅增加控制單元的複雜度,尤其是發生中斷、例外等狀況時必須迅速儲存處理器狀態的情形。另外一點,由於Trace Cache擁有比傳統指令高速緩存更復雜的控制、預測電路,因此佔用的空間成本要比指令高速緩存高出不少。這些因素除了大大增加設計的複雜程度外,也會給 未來CPU的性能造成潛在的負面影響。
可以肯定,新的架構設計和對現有運算方式的優化將是未來CPU設計的發展方向。以更合理的方式換取性能的 提升,特別是提高效率,也將成爲CPU設計工程師永遠思考的問題。

   回到開頭提到的NetBrust架構,它該何去何從?是保留還是捨棄?如果保留,該如何運用新技術發展它?擺在Intel面前的這些課題該由誰解決,透視 現在的市場發展以及Intel的藍圖,以目前的觀點看,來自海爾法團隊的PARROT架構呼聲最爲強烈。從現在的產品路線看,一個全新的概念正在被 Intel強調——Performance/Watt,性能功耗比。在2005,秋季IDF(Intel Developer Form Intel開發者論壇)上,Intel發佈了其在2006年的處理器更新計劃——放棄現有高耗低能的NetBrust架構。未來的新框架將接合以色列開發 組的核心框架開發優勢,在大幅提高性能的同時,降低功耗。最後觀點:NetBrust已徹底被PARROT替代,Prescott成爲NetBrust下 的最後產品。從Intel新發布的Conroe核心CPU中我們可看到,它捨棄了NetBrust架構。Conroe只有14條流水線,效率比同頻率下 NetBrust架構Pentium D高40%以上。


吹盡黃沙始見金,歷述CPU架構與工藝



    HT超線程技術的廢除也是PARROT架構引人注意的地方。因爲PARROT的設計合理,冷管線和熱管線都是處於高效率的運行狀態,再也沒有更多被閒置的 資源可利用,HT自然不能發揮出它的效能,被Intel放棄也在情理之中。接下來的路對於AMD來說是非常難走的,在覈心設計方面可能已經落後於 Intel,以效率取勝的Athlon可能不是Conroe的對手。在工藝上,它又落後Intel一步,Intel的65nm的產品已經上市,工藝不斷成 熟。AMD還在沿用着90nm,如果不更新工藝用現在的路線發展,達到Conroe的水平功耗恐怕要超過150W,90nm還能用多久?

(3)虛擬技術

    支持虛擬技術是當今CPU的一個重要特性。在這裏我們有必要對它先做了解。

    虛擬技術也不是什麼新玩意,現在市場上的一些軟件也能實現類似的虛擬效果。不過大家可能會被虛擬技術、多任務,以及超線程弄混淆,這裏我們有必要解釋一 下。多任務是指,在一個操作系統上同時運行多個程序;而虛擬技術是指,你能在一個CPU上運行多個操作系統,同時又能在多個操作系統上運行多個程序;超線 程是指,爲了提高對稱多處理SMP(Symmetric Multi Processing)性能,將一個物理CPU模擬成兩個邏輯CPU,但是這兩個邏輯CPU不能被單獨使用。下面從上到下分別是多任務、超線程、虛擬技術 的示意圖(虛線框代表一個CPU):



吹盡黃沙始見金,歷述CPU架構與工藝



吹盡黃沙始見金,歷述CPU架構與工藝



吹盡黃沙始見金,歷述CPU架構與工藝


   如果CPU同時支持超線程和虛擬技術的話,同時運行的每個操作系統都認爲獲得了兩個CPU,這樣也能在每個操作系統中改善對稱多處理的性能。

    在虛擬技術下有兩種工作模式:根(root)模式和非根(non-root)模式。一般來說,只有虛擬控制軟件(被成爲是Virtual Machine Monitor,VMM)工作在根模式。

    Intel官方曾表示,Intel虛擬技術需要一個該技術的處理器、芯片組、BIOS和VMM(Virtual Machine Monitor )的支持,其實際性能很大程度上取決於硬件和軟件的配置。對於第三方主板商來說,要支持Intel虛擬技術,必須開發自己的支持Intel虛擬技術的 BIOS。

    在虛擬技術方面,Intel與AMD再次對峙。雖依據的原理相同,但設計出的技術兩家公司還是有差別的。在2005年3月2日的IDF上,Intel公司 和AMD分別宣稱,各自的硬件虛擬技術平臺將會極大地推動創新。在大會上,Intel公司展出了其虛擬技術代號爲“Vanderpool”,該技術將於今 年在桌面芯片和64位安騰處理器中推出,2006年在至強服務器芯片和移動處理器中推出。AMD也將於本月推出代號爲“Pacifica”的虛擬技術,該 技術將於2006年中期應用於AMD64位處理器中。Pacifica技術最突出的地方在於對內存控制器的改進方面。“Pacifica”通過 Direct Connect Architecture(直接互連架構)和在CPU和內存控制器中引入一個新模型和功能來提高CPU的虛擬應用。
虛 擬技術的前景是非常光明的。從硬件層面講,虛擬技術對操作系統作用非常巨大,它使用戶在單個服務器或是虛擬平臺上運行多個操作系統,使IT資源管理更加方 便靈活。在推進虛擬技術的進程中,Intel公司和AMD都得到了微軟和VMware公司的支持。劉易斯(AMD商務軟件戰略師)稱:她預測會有更多的軟 件製造商開發虛擬技術,這些技術將能在芯片製造商的平臺上運行,這將會推動這項技術在用戶中的普及。

    不同的操作系統能夠以最高的性能運行單獨的任務,而各個任務之間彼此互不干擾。Intel公司和AMD卻希望將這一技術移植到x86架構計算機系統上,它 們認爲,不僅僅是低端服務器,就連個人計算機也需要這種功能。據Intel公司數字辦公室規劃和營銷部門的主管格雷戈里布賴恩特在上週IDF期間的一次研 討會上表示,例如,PC可以被劃分爲不同的部分,分別用於處理企業任務、個人任務和系統管理員對系統進行更新;家用計算機可以在一個分區上錄製數字視頻, 而在其它分區上完成正常的任務。只要使用EMC的VMware或微軟的Virtual Server等軟件,在x86計算機的不同分區上運行多種操作系統是完全可能的。

    儘管這項技術在IDF大會上引起了不小的反應,但其仍存在許多問題,其中包括如何和微軟和VMware公司軟件融合等問題。

    Vanderpool和Pacifica是否兼容?現在還不好說,但這是個很嚴重的問題。當初AMD暗示Pacifica可能不兼容Intel的技術 時,Illuminata公司的分析師喬納森尤妮斯表示,AMD會愚蠢到推出一種與Vanderpool不兼容的虛擬技術是很難想象和理解的,這會使許多 軟件開發商感到痛心。AMD和Intel公司之間的大多數x86指令集是相同的,這意味着Windows、Photoshop等軟件可以運行在兩家公司的 處理器上。但不同的指令集就會帶來問題,像AMD和Intel公司分別在x86處理器上增添了64位計算技術,微軟公司已經明確表示,它只會支持一種技 術。

    虛擬技術的效用問題也很另人關注,Illuminata公司的分析師高登胡佛(Gordon Haff)稱,“問題是,這種技術究竟能在多大程序上提高產品性能,目前我們尚無法回答。VMware公司稱效果並不好,但我們不知道。”他提醒用戶,不 要指望通過採用虛擬化的芯片就可以創建虛擬設備,“你還要在軟件上進行投資。”

3、片上系統時代SoC

    在ATI新的圖形核心X1000中,由於內建H.264硬件解碼技術,從而使得CPU從繁重的解碼工作中解放出來。這是一個很好的設計,如果大家留意身邊 的硬件產品,類似的設計相當多。特別是當芯片電路設計逐步完善的今天,將一項特殊處理功能植入硬件已不是什麼難事。

    Intel的科學家認爲,未來處理器將朝着類似片上系統的方向發展,CPU除了包括1個通用處理器外,還將包括TCP/IP卸載引擎(TCP/IP Offload Engine,簡稱TOE)、MPEG編碼解碼引擎、圖形處理引擎。這些專用處理電路提供更高的處理效率的同時,還可以減少功耗和散熱問題,推動摩爾定律 繼續向前發展。

    IBM的科學家提出了類似觀點,認爲未來的處理器將集成目前操作系統的很多底層功能,提高操作系統的運行效率。相應地,操作系統、虛擬機、開發語言和工具 將執行更高層次的功能,底層功能由硬件實現來提高運行速度和可靠性。
這種發展趨勢不是IT公司自己的臆想,而是技術發展的必然。爲了滿足未來萬兆 以太網絡的需求,處理器必須每67ns時間處理一個IP數據包,這樣的任務超越了通用處理器結合操作系統的運算技術所能達到的極限。2003年11 月,Intel公佈了一款內部代號爲TIPP的90nm專用處理器,包含46萬個晶體管,能以高達9.64Gbps的實測數據率進行TCP/IP輸入處 理。這款處理器是使用軟件可編程方法來進行TCP/IP卸載處理研究活動的一部分。該處理器核心引擎整合到片上系統(SoC)中,可以在萬兆以太網卡上實 現TCP/IP卸載(TCP/IP Offload),也可以成爲未來中央處理器的一部分。

    CPU發展的另外一個趨勢也值得關注,那就是CPU廠商加大對嵌入式處理器的投入。威盛公司CPU產品市場部吳億盼認爲:“X86結構兼容性、延伸性比較 好,其所提供的處理器平臺與多樣化的芯片組可以結合起來,爲客戶提供豐富的選擇。”
AMD希望把 x86架構打造成無所不在的平臺,使得x86架構可以延伸到所有的應用,包括從最高端性能的服務器到低功耗的掌上電腦。威盛則希望把X86處理器擴展到家 庭商業娛樂、商業辦公、物流、汽車、遊戲機、瘦客戶機等應用。



    CPU正在這樣飛速前進同時又不失規則地發展。摩爾定律只是CPU發展的一個航標,僅此而已。它在導航的同時也被一次次衝擊着,但又由於一項項新產品新技 術的提出,維護着它神話般的王者地位。

    市場有需求,速度要前進,在實際應用的要求下,CPU不斷成長。先進的製造技術,加上優秀的核心設計,這就是CPU的發展之路。其實CPU的發展也有“粗 獷型”和“集約型”,只重視生產工藝的提升,不斷加入晶體管就是“粗獷型”發展,而“好的架構設計 先進的生產工藝”就是我們所提倡的“集約型”發展。同時還有一個很重要的問題就是平衡性設計,一款CPU既不能過度依賴新工藝,也不能只靠架構打天下。要 看到的是,Pentium 4在艱難發展的同時,爲Intel成熟了多項生產工藝。這些都將給Intel下一代CPU發展鋪平道路,所以Intel有信心製造新一代絕對低功耗的 CPU,這也造就了Intel最大的一次路線轉變。

參考文獻:

從CPU的發展看五大半導體廠商技術對比     博客中國
看清Intel下 一代處理器架構                 微型計算機      阿湯
摩爾定律 不惑之年                         計算機世界網    丁偉
新一代存儲器編譯器續寫摩爾定律神話        電子工程專輯

發佈了26 篇原創文章 · 獲贊 4 · 訪問量 7萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章