Intel graphics HD 4600 核芯顯卡 對比 nVIDIA Geforce GTX 750 2GB GDDR5 獨立顯卡


Intel graphics HD 4600 核芯顯卡 對比 nVIDIA Geforce GTX 750 2GB GDDR5 獨立顯卡 參數比較,3D Mark 性能測試



下面列出的這些比較項目與參數,來自於使用 CPU-Z 與 GPU-Z 工具,對相應的硬件進行檢測的結果,

後面會給出使用 3D Mark 進行基準測試的軟件版本以及相應硬件的得分,FPS(每秒幀數,可以作爲對顯卡或顯示芯片性能進行綜合判斷的依據)

**********************************************************************



**********************************************************************

比較項目:GPU 內部代號


項目含義:

這是指生產商在開發該 GPU 時,公司內部使用的開發代號;

以 nVIDIA 而言,通常這與 GPU 的核心架構代號(一般使用物理學家的名字,例如 GM107 是"麥克斯韋"架構)有某種程度的關聯;

圖形顯示芯片生產商在開發時,可以使用相同的內部代號(或核心架構代號),然後通過調整,更改流處理器的數量,顯示核心的時鐘頻率,顯存時鐘頻率,顯存類型,顯存數量以及位寬等可控因素,來衍生出一系列用於最終銷售的不同型號的產品,

這不僅能豐富自己的產品線,而且有利於廠商在低,中,高端等不同市場需求下的銷售策略佈局,減少開發成本;

另外,同一個內部開發帶號通常意味着相同的 GPU 核心架構,可以使用相同類型的驅動程序,這爲顯卡驅動程序開發人員編寫驅動,以及用戶通過內部帶號查找,更新,下載,安裝驅動等等,都提供了很大的便利.



Intel HD 4600nVIDIA Geforce GTX 750
GT2GM107 (Maxwell)

***********************************************************************



***********************************************************************

比較項目: GPU 版本號(Revision)


項目含義:

該項目僅適用於 nVIDIA ,對於 ATI 與 Intel 的圖形處理器而言,其沒有 "GPU 版本號"的概念.


Intel HD 4600nVIDIA Geforce GTX 750
N/AA2

***********************************************************************



***********************************************************************

比較項目: 製造工藝(Technology,製程技術,生產工藝)


項目含義:

製造工藝是衡量構成圖形處理器內部的集成電路(Intergrated Circuit,IC)的各種電路,電子組件,元器件的特徵尺寸大小,以及導線間連接的精度的重要指標;

製造工藝的精度在早期通常在微米(μm)量級;現在已經提升到納米量級(nm),其數值越小,表示生產 GPU 時的精度越高,在相等面積的芯片上可以集成更復雜的電路,更多的元器件,最重要的是(從用戶角度看),芯片的功耗也就更低;

1 mm(毫米)=0.001μm ; 1μm=0.001 nm 


Intel HD 4600
nVIDIA Geforce GTX 750
22 nm
28 nm

***********************************************************************



***********************************************************************

比較項目:  (硅)芯片面積(Die Size)


項目含義:

對於 Intel HD 4600 而言,由於是集成在一個封裝的 CPU 硅芯片的內部,因此這意味着整個 CPU 芯片的面積;

對於 nVIDIA 與 ATI 的 GPU 而言,這就是真實的圖形處理器硅芯片的大小;

(硅)芯片面積以平方毫米(m㎡)爲單位.


Intel HD 4600
nVIDIA Geforce GTX 750
177 m㎡
148 m㎡

***********************************************************************



***********************************************************************

比較項目:  晶體管數量(Transistors)


項目含義:

晶體管數量以百萬個(M)爲單位;

對於 Intel HD 4600 而言,其有兩種含義:整個封裝的 CPU 硅芯片內的晶體管數量;或者是 CPU 硅芯片內部的 Intel HD 4600 顯示芯片部件內的晶體管數量;目前尚無法確定,由 GPU-Z 給出的數字是表示哪一種.


Intel HD 4600
nVIDIA Geforce GTX 750
1400 M 
1870 M

***********************************************************************



***********************************************************************

比較項目:  顯卡生產商 ID(Subvendor ID) 設備 ID(Device ID)


項目含義:

依照 GPU-Z 的解釋,設備 ID 是指由圖形處理器(GPU) 生產商自行指派的一組字符串標識符,前面的4個字符代表生產商 ID;後面的4個字符代表該設備(GPU)的 ID ;

我們知道,由於製造技術,經驗,以及研發能力等諸多因素,桌面型 PC 使用的圖形處理器市場份額一直被像 nVIDIA, AMD/ATI, Intel 這樣的幾家廠商所壟斷;

上述這3家廠商雖然也自行生產所謂"公版"顯卡,但多數情況下,他們僅生產,並銷售

圖形處理器芯片給一些第三方的"顯卡製造商",例如 asus,gigabyte,elsa,msi 等等,由這些第三方廠商負責將圖形處理器顯示芯片集成在 PCB 版上,並添加顯示存儲器(顯存),導熱金屬片,散熱風扇,設計符合主流 PCI-Express 規範的顯卡接口,以及

向顯示器輸出信號使用的接口類型等等;

而顯卡生產商 ID 就是指這些第三方顯卡製造商的 ID ,根據 GPU-Z 的解釋,這個 ID 是由 PCI-SIG (PCI 特別興趣小組,一個制定或審覈 PCI 標準的國際化組織)分發給各個顯卡製造商的 ID ,可以用來唯一地標識顯卡製造商;

注意,有些顯卡製造商並不會乖乖地在顯卡 BIOS 中提供這個由 PCI-SIG 小組指派給他們的 ID (或者修改成其他 ID),而 GPU-Z 是讀取顯卡 BIOS 來顯示某些信息,

這樣,用戶通過 GPU-Z 看到的這個 ID 可能不準確;一般情況下,對於絕大多數"一線顯卡品牌大廠",這個值是可信的.在下面的例子中可以看出, PCI-SIG 分發給 gigabyte 的 ID 爲 1458.

另外,對於 Intel 核芯顯卡, 由於不存在第三方顯卡製造商的概念,因此 GPU-Z 會將該項目顯示成"與主板製造商相同的顯卡製造商 ID",例如 asus 的 ID 爲 1043.



Intel HD 4600
nVIDIA Geforce GTX 750
Device ID
8086-041210DE-1381
Subvendor ID
asus(1043)
gigabyte(1458)

***********************************************************************



***********************************************************************

比較項目:  ROPs/TMUs 

(Raster Operations Units,光柵處理單元數量/Texture Mapping Units,紋理貼圖單元數量)


項目含義:

ROPs 表示 GPU 中負責光柵處理的單元數量; TMUs 表示 GPU 中負責紋理貼圖(也翻譯成紋理映射,材質貼圖等等)的單元數量;

總的來講, GPU 中的這些單元數量越多,顯卡的性能就越強勁;

我們知道,屏幕上的三維圖像是用大量的小塊二維多邊形來模擬並填充的;

在傳統的 GPU 渲染流水線模型中,首先頂點渲染管線(着色器)處理每個多邊形的頂點數據(x,y,z 座標),將3維頂點座標轉換爲能在2維屏幕上顯示的數據(幾何轉換),並生成線框多邊型;然後填充這些頂點間的所有片元,即光柵化;

最後由像素渲染管線(着色器)計算片元中,每個需要最終在屏幕上顯示的像素顏色,亮度,以及用於模擬其他特效,如光照,陰影,粒子物理系統等的高級像素屬性,同時還要根據紋理數據再對每個像素作進一步處理;

而隨微軟的 DirectX 10 圖形 API 提出的新一代的統一渲染架構(shader model 4.0)指出,頂點渲染與像素渲染都可以由一種叫做"流處理器"的硬件來完成,不需要依賴特定的着色器;

(着色器,即 shader ,實際上就是 GPU 內執行並行計算的上百個微型處理單元,傳統的圖形流水線模型規定:進行頂點座標幾何計算的 shader 爲頂點着色器;進行片段顏色計算,即像素屬性值計算的 shader 爲片段或像素着色器;按照傳統圖形流水線設計的 GPU 內部渲染架構,其內部的頂點 shader 與 像素 shader 數量與功能都是固定的;也就是說,頂點 shader 不支持對像素的操作,反之亦然,

這意味着,當執行三維場景中需要生成大量的多邊形的建模任務時,頂點 shader 全負載工作,而像素 shader 則閒着沒事幹;反之亦然,所以傳統的渲染架構造成 GPU 內大量的並行計算資源的浪費)

光柵處理單元與紋理貼圖單元就是在 GPU 渲染流程中(在光柵化之後),用於輔助傳統的像素着色器或者現代的流處理器進行渲染計算,對像素屬性進行高級操作的硬件,兩者的區別以及作用,參考下圖:

wKioL1SObhqy56ptAActz_yrqkY681.jpg

上圖中"可編程的着色器或流處理器"含義是指,這些並行處理單元的功能不是固定的;

用戶通過圖形學 API (例如 OpenGL )內置的"着色語言"或者 GPU 計算語言(最顯著的例子是  CUDA ,Compute Unified Device Architecture ,計算統一設備架構)

編寫自定義的算法,可編程的圖形硬件能識別並執行這些算法,從而改變原來固定的功能,實現更強大,更復雜的圖形渲染方式,這也是如今多數複雜的三維動畫或遊戲特效的原理.

*****關於 CUDA 的介紹,請參考結尾的補充資料*****


從遊戲玩家的角度看, ROPs 的數量影響着遊戲畫面的光照,陰影,霧,火焰爆炸特效,抗鋸齒的級別(從1倍到32倍)等效果開啓下,其流暢性,主要以每秒的幀率,即 FPS 來衡量;

而 TMUs 的數量則影響着遊戲中三維物體的真實程度,表面的細節,貼圖的二線性,三線性,各向異性過濾的級別(從1倍到16倍),以及是否支持環境凹凸貼圖,多重紋理等高級紋理效果;


Intel HD 4600
nVIDIA Geforce GTX 750
4/8 (ROPs/TMUs)
32/32 (ROPs/TMUs)

***********************************************************************



***********************************************************************

比較項目:  流處理器(shaders)數量


項目含義:

關於流處理器的信息請參考上一個項目中相關的介紹,流處理器既可以執行頂點渲染;也可以執行像素渲染,具備更廣泛意義的通用計算功能(其 "Unified" 字段就是這一層含義);

例如, nVIDIA 的流處理器,每一個都是支持 CUDA 計算架構的可並行計算單元;

另外,Intel HD 4600 的流處理器不支持 CUDA 計算架構.


Intel HD 4600
nVIDIA Geforce GTX 750
20  Unified512  CUDA core Unified

***********************************************************************



***********************************************************************

比較項目:  像素填充速率(Pixel Fillrate)


項目含義:

正如這個聽起來很前衛的術語所暗示的,它衡量 GPU 每秒能夠生成多少"初始"像素來填充構成多邊形的片段,通常以每秒十億個像素(GPixel/s) 爲單位;

GPU 內部微架構(或渲染模型)以及流處理器的數量,都會影響到像素填充速率的大小;

例如,從前一個比較項目我們知道, Intel HD 4600 有 20 個流處理器,因此它的像素填充速率爲: 每秒14億個像素;

nVIDIA Geforce GTX 750 有 512 個流處理器,因此它的像素填充速率爲: 每秒339億個像素,如下所示;

另外,常常可以聽見一個容易與此混淆的術語: 多邊形生成速率(以每秒百萬個多邊形爲單位),GPU-Z 並沒有將它列爲檢測並衡量顯卡的技術參數之一,因爲它不是 GPU "原生"的性能參數;我們可以粗略的認爲,將像素填充速率除以多邊形生成速率,就得出構成每個多邊形的平均像素個數.


Intel HD 4600
nVIDIA Geforce GTX 750
1.4  GPixel/s33.9  GPixel/s

***********************************************************************



***********************************************************************

比較項目:  紋理填充速率(Texture Fillrate)


項目含義:

正如這另一個在顯卡發燒友間經常論及的術語所暗示的,它衡量 GPU 每秒能夠對多少個像素進行紋理映射(貼圖)操作,即賦予像素與紋理相關的屬性值,通常以每秒十億個紋理元素(GTexel/s) 爲單位;

在最簡單的情況下,一個紋理元素映射到一個像素,有關紋理元素和紋理映射的更多細節,請閱讀與計算機圖形學相關的書籍;

GPU 內的 TMUs 數量與流處理器數量,共同決定了該 GPU 的紋理填充速率和質量;


Intel HD 4600nVIDIA Geforce GTX 750
2.8  GTexel/s
33.9  GTexel/s

***********************************************************************



***********************************************************************

比較項目:  支持的 DirectX/Shader Model 版本


項目含義:

DirectX 與 Shader Model 分別是微軟推出的圖形 API 與渲染模型;

DirectX 包含一系列在 windows 平臺下開發多媒體應用的接口組件: Direct3D 用於實現三維特效,被絕大多數遊戲廠商使用;

DirectSound,DirectInput,DirectOutput 等組件 API ,也是開發,增強其它多媒體應用的音效與用戶交互體驗時不可或缺的;

遊戲廠商想要實現更復雜,炫目的效果,就必須儘可能地使用最新版本的 DirectX 中的 API 函數來開發遊戲(遊戲廠商日益依賴於 DirectX 來實現特效,或是節省開發成本);而 GPU 製造廠商爲了支持更多最新遊戲的特效,就等同於需要支持最新版的 DirectX;

在桌面型 PC 娛樂市場,遊戲與 GPU 開發廠商似乎都不得不跟隨這個由微軟制定的"遊戲規則",才能保證自己的產品有較高的市場份額與利潤;


與此相反,在學術研究以及工業繪圖領域,類似 OpenGL 這樣開源的圖形 API 則是行業標準,它不是由一家公司所壟斷,而且沒有強制與任何操作系統"捆綁";

任何第三方機構,團體都可以向其中添加新的特性,功能,只是要經過標準委員會的審覈---這總比微軟一手遮天,然後其它廠商被牽着鼻子走要強.

Shader Model 是微軟提出的渲染模型,類似 OpenGL 的圖形流水線概念,不同之處在於,Shader Model 4.0 版本提出了統一渲染架構,它要求 GPU 製造商將原來功能分立的頂點與像素着色器,改爲以通用的處理單元來實現,其目的無非是爲了鞏固自己在桌面 PC 娛樂市場的圖形 API 壟斷地位,於是,AMD/ATI 與 nVIDIA 分別提出了符合微軟統一渲染架構的新版 GPU 渲染架構;例如,流處理器就是符合微軟統一渲染架構的 nVIDIA 版本.

以純粹遊戲玩家的角度而言,GPU 支持的 DirectX/Shader Model 版本越新,才能實現更多的遊戲特效,然而,默認情況下,DirectX/Shader Model 的版本取決於 windows 的版本,例如,windows XP 僅"捆綁"了 DirectX 9.0c ,windows 7 則支持

DirectX 11 , DirectX/Shader Model 的當前最新版爲 11.1/5.0 ,可以通過在 windows 的 "開始"-> "運行" 對話框中,執行 dxdiag 命令,查看你的系統上的

DirectX 版本,許多以光盤形式發售的遊戲,以及顯卡廠商提供的顯卡驅動程序,都提供可以作爲獨立組件安裝的最新版 DirectX ,用來替換系統上舊版的 DirectX.


Intel HD 4600
nVIDIA Geforce GTX 750
11.1/SM5.0
11.0/SM5.0

***********************************************************************



***********************************************************************

比較項目:  顯卡與外界(通常是主板芯片組或 CPU)交換數據的接口類型以及速度


Intel HD 4600
nVIDIA Geforce GTX 750

以桌面型第4代 intel core (酷睿) 處理器的 Haswell 微架構而言(請參考下方的示意圖),由於核芯顯卡直接集成在 CPU 硅芯片內部,所以沒有接口類型的概念;

至於帶寬,則取決於連接每個 CPU 核心與核芯顯卡之間的"環形總線"帶寬,

由於 Intel HD 4600 與各個 CPU 核心之間交換數據的總線是在 CPU 內部,因此是專用的,不像傳統的主板(共享)系統總線,需要彙集並交換包含來自獨立顯卡,SATA 磁盤,網卡等在內的各種設備的數據,減少了顯卡實際能使用的總線帶寬,造成獨立顯卡與 CPU 之間數據傳輸的瓶頸。

這也是核芯顯卡對比連接傳統總線結構主板的獨立顯卡的唯一優勢所在。


桌面型第4代 intel core (酷睿) 處理器的 Haswell 微架構直接在 CPU 硅芯片內部集成了支持 PCI Express 3.0 x16(PCI-E Gen 3)接口規範的"專用"通道,可以"直連"使用 PCI Express 3.0 接口的獨立顯卡(儘管從表面上看,獨立顯卡似乎是通過主板上的 PCI-E 3.0 x16 插槽,再經由主板芯片組與 CPU 通信)

這個在 Haswell CPU 與獨立顯卡之間的專用 PCI-E 通道的帶寬,取決於兩者支持的 PCI Express 規範版本,例如,獨立顯卡的接口支持 PCI Express 3.0 x16 規範 ;並且 Haswell CPU 內的 PCI-E 通道支持 PCI Express 3.0 x16 規範,那麼這個專用通道在發送接收方向的帶寬就是 16GB/s 


注意

一,取決於 PCI Express 3.0 規範自身定義的節能(電源管理特性),

如果 Haswell CPU 與獨立顯卡都實現(並開啓)了這個特性,那麼專用通道的帶寬是動態變化的,例如,在 GPU 高負載工作時,其鏈路帶寬爲 16 GB/s(Gen 3) ;當 GPU 閒置時,其鏈路帶寬會降低到與 Gen 1 (PCI Express 1.0 x16)相同,即 4 GB/s

二,不要忘記,還需要主板有支持 PCI Express 3.0 x16 規範的插槽


項目含義:

關於 intel Haswell 微架構的內部組織,與 PEG(PCI Express 顯卡)通信的專用通道,以及各種版本的 PCI Express 規範的數據傳輸速率(帶寬),請參考下面幾張示意圖:

wKiom1SUuAChpH3cABOcN1_aOyM771.jpg


從上圖可以看到,Haswell 微架構的 CPU 內部由三個主要組件構成:核芯顯卡,CPU核心,以及系統代理,環形總線連結這三個組件各自的緩存,實現數據在 CPU 內部組件之間的高速傳輸.

因此,按照上面的架構,將圖形處理器集成在 CPU 內部,以及爲獨立的高性能圖形處理器提供專用的 PCI Express 3.0 x16 高速通道,徹底解決了傳統的平臺架構中,

GPU 與 CPU 之間通信,需要經過 AGP/PCIe 總線,北橋芯片,共享系統總線....等低帶寬,慢速總線的缺點;

Haswell 架構能滿足 GPGPU 要求的高帶寬,低延遲計算環境(可惜核芯顯卡不支持當前最流行的 GPGPU 架構 CUDA ,因此只能使用 nVIDIA 圖形處理器或其他支持 CUDA 的圖形處理器)

關於 Haswell CPU 內部的 PCI Express* 接口特性,總結如下,其中部分內容是翻譯自 Intel 網站上的原文文檔中相關的介紹:

桌面型第4代 intel core (酷睿) 處理器上的 PCI Express* 接口,是單個 16 信道(x16)的端口,它也可以配置成窄帶寬模式(一個8信道+2個4信道,1x8,2x4 ;

或者2個8信道,2x8),該接口完全兼容  PCI-SIG(PCI 特別興趣組) 的 PCI Express Base Specification, Revision 3.0 規範,參考該規範的官方站點:

http://www.pcisig.com


第一代 PCI Express* 規範(PCI Express 1.0, Gen 1) 在數據針腳上的原始比特率爲 2.5 GT/s,這導致每一對實際帶寬爲 250 MB/s的 PCI Express

信道提供 8b/10b 編碼,用於通過該接口傳輸數據,這並沒有將數據包的固有開銷,以及鏈路維護信息計算在內;

該接口在單方向上(發送或接收)的理論最大帶寬爲同時 4 GB/s (250 MB * 16),因此,16信道的第一代PCI Express 規範 (x16 Gen 1) 的總帶寬爲:

每信道單向傳輸帶寬*2(計算髮送與接收的雙向傳輸) * 信道數=250 MB/s * 2 *16 = 8 GB/s

實際的發送或接收吞吐量各自均爲4 GB/s 



第二代 PCI Express* 規範(PCI Express 2.0, Gen 2) 在數據針腳上的原始比特率爲 5.0 GT/s,這導致每一對實際帶寬爲 500 MB/s 的 PCI Express

信道提供 8b/10b 編碼,用於通過該接口傳輸數據,這並沒有將數據包的固有開銷,以及鏈路維護信息計算在內; 

該接口在單方向上(發送或接收)的理論最大帶寬爲同時 8 GB/s(500 MB * 16) ,因此,16 信道的第二代 PCI Express 規範 (x16 Gen 2) 的總帶寬爲:

每信道單向傳輸帶寬*2(計算髮送與接收的雙向傳輸) * 信道數=500 MB/s * 2 * 16 = 16 GB/s

實際的發送或接收吞吐量各自均爲8 GB/s



第三代 PCI Express* 規範(PCI Express 3.0, Gen 3) 在數據針腳上的原始比特率爲 8.0 GT/s,這導致每一對實際帶寬爲 984 MB/s 的 PCI Express

信道提供 128b/130b 編碼,用於通過該接口傳輸數據,這並沒有將數據包的固有開銷,以及鏈路維護信息計算在內; 

該接口在單方向上(發送或接收)的理論最大帶寬爲同時 16 GB/s (984 MB * 16) ,因此,16 信道的第三代 PCI Express 規範 (x16 Gen 3) 的總帶寬爲:

每信道單向傳輸帶寬*2(計算髮送與接收的雙向傳輸) * 信道數 = 984 MB/s * 2 * 16 = 32 GB/s

實際的發送或接收吞吐量各自均爲16 GB/s

Gen 3 PCI Express* (的配置架構) 使用 128b/130b 編碼,它比使用 8b/10b 編碼的 Gen 1 與 Gen 2 高出約 23% 的效率;


Haswell CPU 內部的 PCI Express* 接口,支持動態(增減)帶寬功能,也就是說,配置成使用 16 信道與 CPU 通信的支持 Gen 3 的顯卡,可以 2.5 GT/s, 5 GT/s, 或 8 GT/s 等速率運作(取決於顯卡  GPU 的負載而定)


Haswell CPU 內部的 PCI Express* 接口不支持 PCI Express* 設備的熱插拔;

PCI Express* 的基準時鐘爲 100-MHz 的差分時鐘;


用於直連獨立顯卡的 PCI Express* 鏈路通過 Haswell CPU 內部的 PCI 到 PCI 橋接結構映射,參考下面這張圖,它是處理器直接支持 PCI Express* 獨立顯卡的原理:


wKioL1SXoMeCtry_AAPj6Vzn4OI048.jpg


下面這張圖引用自網絡上廣泛流傳的 Haswell 架構圖,這是一個簡化的示意圖,它並沒有描述 CPU 內部組件的詳細結構(面向用戶的宣傳版本),注意它與第一張圖之間的聯繫,可以相互比較,驗證:


wKioL1SVleajVQ_iABF-sNfvDlU913.jpg


注意,Haswell 架構僅僅爲獨立顯卡這個在桌面 PC 市場最重要的外圍設備提供了直通 CPU 內部的通道,

至於其它一些外圍設備,例如 SATA 接口磁盤/光驅,USB 存儲設備,PCI Express 1.0/2.0 網卡...等等,需要通過各自的總線連接到 PCH (例如 Intel B85 芯片組),由 PCH 通過共享帶寬的 DMI 2.0 系統總線或者 FDI 總線與 CPU 交換數據;

在極端的情況下,各種外圍設備"擠"四條各自只有 500 MB/s 峯值帶寬的 DMI 2.0 信道與 CPU 通信,每個設備分到的可用帶寬並不多;

(DMI 2.0 是同步,並行,全雙工總線;

同步,並行指整個 DMI 2.0 總線由四條獨立信道構成,可以同時並行傳輸數據;

每條信道又分爲發送子信道與接收子信道,可以同時發送與接收數據,因此是全雙工,每個子信道帶寬爲 500 MB/s,因此發送方向的總帶寬爲 500 MB * 4 = 2 GB/s ,接收方向總帶寬也是 2 GB/s ,整個  DMI 2.0 總線的吞吐量理論值就是 4 GB/s  )

你的計算機系統上安裝的外圍設備越多,數據在 DMI 2.0 系統總線上的"流動速度"就越慢.(參考下面來自於 Intel 官網的

Intel B85 芯片組與處理器芯片構成雙芯片平臺的架構示意圖)

可以看到,和傳統的南北橋芯片組架構相比,最明顯的改善是, CPU 與 DDR3 SDRAM (第三代雙倍數據速率同步動態隨機訪問存儲器)之間的專用通道;

以及 CPU 與 PCI Express 3.0 x16 獨立顯卡之間的專用通道;


wKiom1SWgmPAxwVXAAd9fI8HkBw045.jpg



爲了切合本篇博文與顯卡相關的內容,對於雙芯片平臺架構的其餘部分,也就是 PCH 

內部集成的其它類型總線控制器,例如管理通用串行總線(USB,包括最新的 USB 3.0 標準)的 xHCI 主控制器;

管理串行 ATA 總線(SATA,包括最新的 SATA 3 標準,理論最大傳輸速率爲 6.0 Gb/s ,SATA 2 標準的理論最大傳輸速率爲 3.0 Gb/s ,SATA 1 ,通常是內置光驅使用的標準,理論最大傳輸速率爲 1.5 Gb/s)的 SATA 主控制器(以及用於 SATA 總線的高級主控制器接口,Advanced Host Controller Interface, AHCI 規範);

集成的千兆以太網卡控制器,支持 10/100/1000 Mbps 的以太網標準,自動協商速率,支持通過 PCI Express 2.0 x1 總線連接獨立網卡;

上述這些總線控制器,以及其它重要的 PCH 組成部分,以後會開闢專門的章節來討論,並再次引用這張圖表.

***********************************************************************



***********************************************************************

比較項目:  顯存類型與製造商

項目含義:

只有獨立顯卡纔有自己的顯存,集成顯卡(或核芯顯卡)使用系統共享的內存,作爲自己的顯存;一般而言,在 BIOS 中可以調整給集成顯卡使用的內存大小,多數上限爲

1 GB ,例如,假設你的系統內存爲 8 GB ,分配給集成顯卡 1 GB ,那麼在 windows

資源管理器中可以看到 "爲硬件保留的內存",其中的 1GB 部分,就是系統預留給

集成顯卡的,實際可用系統內存將爲 7 GB ;

多數生產內存顆粒的廠商,也向顯卡製造商供應顯存顆粒.常見的內存/顯存顆粒製造商有三星(Samsung),海力士(現代,Hynix)等.

GDDR5 顯存是目前桌面 PC 市場主流,以三星生產的單顆 GDDR5 顯存顆粒爲例,

其位寬爲 32 bits,容量爲 512 MBytes ,時鐘頻率爲 5GHz;

在下面這張截圖中,使用 nVIDIA Geforce GTX 750 的技嘉顯卡,集成了4個三星的

GDDR5 顯存顆粒,因此,這張顯卡的顯存(總)位寬爲 32 * 4 =128 bits;

顯存容量爲 512 * 4 =2048 MBytes;

由於單顆顯存顆粒帶寬 = 顯存顆粒時鐘頻率 * 顯存顆粒位寬,

所以這張顯卡的顯存帶寬爲 4 * (5GHz * 32bits/8) = 80 GBytes/s

wKioL1Sgzo2jjoqaAANPSG9H-74913.jpg


***********************************************************************


*****補充資料*****

CUDA (Compute Unified Device Architecture ,計算統一設備架構)

大約與 nVIDIA Geforce 8000 系列顯卡同時推出,與以往的圖形學 API 着色語言/GPU 編程語言不同, CUDA  不再面向圖形計算,而是一個完整的 GPU 通用計算框架;

CUDA 提供編譯器和開發工具,讓開發人員可以用一種類似 C 風格的編程語言來開發

GPGPU 程序,該程序能同時運行在 CPU 與 GPU 上,實現利用異構計算資源(CPU+GPU)

的協同計算.

CUDA 提供的專用 GPGPU 語言稱爲 CUDA C ,它提供給開發人員一個完整的接口,用來訪問支持 CUDA 架構的 nVIDIA GPU 的本地命令集,存儲器等並行計算元素,讓它們變成像 CPU 一樣的開放式,可訪問的架構.

整個 CUDA 框架以 CUDA SDK 軟件開發工具的形式實現與發佈;提供了針對主流操作系統,如 windows , linux , Mac OS 等的不同版本;

CUDA C 是 C 語言的變種,不支持 C 的某些特性,例如函數指針,遞歸函數,同時擴展了一些簡單的指令; CUDA 提供的 nvcc 編譯器,負責編譯 C 源文件中,與 CUDA C 語法相關的部分,並將傳統的 C 代碼交由 C 編譯器編譯;

CUDA 框架下的 GPU 通用計算(非圖形渲染計算)大致分爲下面4個步驟:

1. 把需要處理的數據從系統內存複製到顯存

2. CPU 把程序指令發送給 GPU 

3. GPU 內的計算單元從顯存中讀數據,並行計算,再將結果寫入顯存

4. 把顯存中的計算結果複製到系統內存中


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章