OpenGL Performance Optimization

這篇文章比較長，希望大家能夠看完。^_o
OPenGL State Machine
Typical D3D9 Hardware architecture
Less State Change
GL_TRIANGLE_STRIP instead of GL_TRIANGLES
Texture Loading
Texture Composite
Texture MipMap
Multi Pass vs. Single Pass
Texture Compression
Avoid Pixel Operations
Vertex Array, Display List,
Vertex Buffer Object
Advanced Tech: VS and Ps.
Less Operations for Depth Test, Stencil Test, Alpha Test,
Fast Shadow
MISC: LOD, cull, SwpaBuffers, wglMakeCurrent etc

上一個講座是關於OpenGL Driver體系結構，估計大家都有很多疑問，而且我自己又看了一遍，發現一些問題講得不夠清晰，而且沒有交代講驅動程序體系結構的目的。其主要目的是，當我們瞭解了驅動程序的體系結構，我們更好地寫出一個OpenGL應用程序框架結構。

今天我將結合OpenGL狀態機和一個典型的D3D9硬件體系結構探討如何對OpenGL應用程序的性能進行優化。MSDN的OpenGL幫助也提到了關於性能優化方面的問題，但是這已經是多年以前的article，而隨着圖形加速硬件的發展，許多新的技術不斷涌現，我們應該跟上時代發展的步伐。
我今天講的內容應該是不全面的，希望大家踊躍指正和補充。

1 OpenGL狀態機（State Machine）
OpenGL狀態機的目前只有1.1版本，也是最經典的，大家可以參考下述鏈接：
ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.pdf
ftp://ftp.sgi.com/opengl/doc/opengl1.1/state.ps

它們是內容相同而格式不同的狀態機表達。整個文件中只有一張Postscript的圖。這張圖實際上就是SGI RealityEngine的硬件程序流程描述。

首先硬件接受應用程序輸入的頂點信息，（Color, Normal, Texture, EdgeFlag，Vertex, ），經過世界座標變換（glTranslate, glRotate, glScale），接着進行User Clip Plane，之後進入視圖變幻和裁減（Projection Matrix），然後視口變換（ViewPort），經過Primitive Setup，光柵化處理（Flat或Phong）生成片斷Fragment，下面的對每個依次作紋理貼圖計算，紋理混合(Texture Blend)，深度測試(Depth Test)，模板測試（Stencil測試），透明測試（Alpha Test），透明混合（Apha Blend），然後寫入顏色緩衝區，深度緩衝區，模板緩衝區。整個流程如下：

我們可以看到OpenGL每處理一個幾何圖元，需要經過大量的處理過程。大家應該對這個圖的每個步驟地工作相當清晰。這裏有幾個概念需要說明。

第一個概念是Fragment，片斷或者片元。每一個片斷對應屏幕上的一個像素點，它是光柵化（Rasterization）引擎使用FLAT shading或 Phong Shading生成的。Rasterization引擎產生的片斷包含一下信息：
屏幕座標；
顏色信息，Diffuse和Specular；
深度信息和模板信息；
紋理座標,u,v

第二個概念是紋理混合（Texture Blend），它是指紋理顏色和片斷顏色（Diffuse和Specular）合成的方式。就是指glTexEnv的效果，根據不同的參數決定片斷只保留Texel（紋理元）還是使用Texel（紋理元）和片斷的顏色做混合。

第三個概念是透明融合Alpha Blend。如果一個片斷經過深度測試，模板測試和透明測試，那麼它將和緩衝區對應位置的像素作透明融合。

相信大家對OpenGL 狀態機有了一定的瞭解，實際上這也是Direct3D8以前的圖形流水線的主要參考模型（graphics processing pipeline）。

==================================================================
如果我們能夠在流水線中減少一個操作，我們就能夠獲得性能的提高，當然前提是我們能夠繪製正確的圖像。

2 典型的D3D9硬件體系結構
上面的OpenGL狀態機實際上就是SGI的Reality Engine和其他Direct3D7及其一下版本的圖形硬件流水線結構。下面我向大家介紹D3D9的典型硬件體系結構（或者說Direct3D9的參考模型）。

我們可以看到D3D9的流水線和OpenGL 1.1的流水線有很大的不同。
OpenGL的頂點數據是通過調用OpenGL API一個個的送到流水線的幾何變換處理單元，立即模式(immediate mode)，而D3D9通過 Fetch和Put兩步工作，從Vertex Buffer中讀出送入Vertex Sahder的Input寄存器；
OpenGL 1.1的光照計算和幾何變換是通過傳統的固定流水線（TnL: Transform and Lighting）完成的—fixed function graphics processing(FGP)，而D3D9時通過Vertex Shader實現，它比FFGP更爲複雜，可以完成更多的功能；
OpenGL 1.1的Texture mapping和Texture Blend獨立的兩個步驟，而D3D9是通過Pixel Shader，PS是可編程的(Programmable Graphics Processing)。

D3D8/D3D9的Vertex Shader和Pixel Shader是兩個圖形體系結構巨大的進步，當然使得圖形程序設計更爲靈活，也更爲困難和複雜。

對於D3D8/D3D9的硬件體系結構，我們的程序優化工作有多了兩個內容，優化Vertex Shader和Pixel Shader。

今天我的重點放在傳統圖形流水線(TnL)的性能優化上。

3 基本優化方法

3．1 減少OpenGL的狀態變化
如果我們應用程序不斷地改變OpenGL的狀態，那麼驅動程序和AGP數據傳輸，圖形硬件的負擔會則增加很多。因爲每當我們改變一個OpenGL狀態，可能會涉及到硬件的多個寄存器的數據，那麼驅動程序就必須將修改的硬件寄存器通過AGP總線發送到硬件，佔用大量的CPU資源和AGP帶寬和硬件命令解釋器時間。

Advice1：儘可能將狀態相近的圖形繪製命令放在一起，減少OpenGL狀態變化。
Advice2：使用狀態集合，降低驅動程序的CPU處理時間，

3.2 避免光照計算特別是高光計算（Specular）
Specular的計算是光照計算中最爲耗時的運算之一。Diffuse計算相對比較普通，一般圖形硬件都會對Diffuse運算進行優化。

3.3 圖元類型優化
我們使用的大多數圖元類型都是Triangle。如果我們每次都是用GL_TRIANGLES，我們將浪費大量的CPU時間和AGP帶寬和圖形硬件資源。原因如下：
（1）使用GL_TRIANGLES，我們每繪製一個三角形，我們就會發送三個定點的數據，如果我們使用G:_TRIANGLE_FAN或者GL_TRIANGLE_STRIP，那麼我們可以平均每個三角形一個頂點。
（2）一般的硬件設計中都開闢一定的Cache區域，如果使用GL_TRIANGLE，我們將無法使用圖形硬件的Cache，浪費大量的圖形硬件TnL時間。
（3）使用GL_TRIANLGES將比GL_TRIANGLE_STRIP多耗費200%的硬件TnL時間。

根據測試，我三年前在Geoforce 3和 Geoforce Quadro 3上對OpenGL做的測試，GL_TRIANGLE_STRIP比GL_TRIANLGES 快100% ~ 200%。

建議：儘可能地使用GL_TRIANGLE_STRIP替代GL_TRIANGLES。
三角形Stripe的成熟軟件：
http://www.cs.sunysb.edu/~stripe/

3.4 光照條件下使用glMaterial替代glColor
在光照條件下，如果程序使用glMaterial，那麼驅動程序只加載Material屬性一遍到硬件，使用glColor將使得驅動程序對每個定點加載顏色信息。將會佔用更多的CPU時間和AGP帶寬。

4 紋理優化
這方面的話題比較多，所以我把它作爲一個獨立的話題。

4．1 優化紋理加載
初學OpenGL一個常見的性能優化方面的問題是每次使用一個紋理的時候，都重新設置紋理參數並且調用glTexImage2D函數。事實上，OpenGL對紋理和Display List都有一個命名機制，glBindTexture，glDeleteTexture，glBindTexture。下面我們比較一下效果。

方法一:每次使用紋理前調用glTexImage2D，並重新設置紋理參數。那麼驅動程序將不斷地調用IDirectDraw7::CreateSurface並且將數據從用戶內存區拷貝到驅動程序系統內存區，然後再從系統內存區域複製到video memory。
方法二：使用glTexEnv和glTexImage2D設置當前的紋理參數和紋理內容，，然後調用glBindTexture，例如5號紋理；如果需要使用該紋理，再次調用glBindTexture函數，glBindTexture會把5號紋理設置爲當前的紋理，並且參數上次設置的參數，你可以根據需要決定是否修改參數。方法二的主要優點在於應用程序僅僅調用glTexImage2D，從而節省大量的CPU和AGP時間，因爲從CPU往video memory複製是最耗時，overhead is very high。

Advice:
當應用程序需要多個Textures，在調用wglMakeCurrent成功後，調用glGenTextures產生命名紋理，並且使用glBindTexture分別進行紋理綁定；
在wglDeleteContext之前使用glDeleteTexture將所有的紋理從驅動程序內存和video memory釋放。
每次需要使用紋理時，再次調用glBindTexture

進一步閱讀：
OpenGL Spec & OpenGL manual:
http://www.opengl.org/developers/documentation/specs.html
Glut examples:
http://www.opengl.org/developers/documentation/glut.html

4.2 儘量使用MipMap紋理
一般圖形硬件都支持Mipmap，如果應用程序使用Mipmap，那麼圖形硬件會根據當前的片斷對應的紋理LOD計算Texel，這樣能夠節省大量的紋理元video memory尋址時間，而且圖形硬件對紋理元做Cache，mipmap中尺寸較小的紋理（Level比較大的）能夠節約大量的計算時間。如果應用程序僅僅提供Level 0的最大的紋理，那麼圖形硬件每次都將使用這個紋理作紋理元計算，不但會浪費大量的計算資源，而且消耗很多的圖形芯片帶寬。

Advice：1. 不要使用特別大的紋理. > 256 X 256
2.使用MipMap。
Tips: gluBuild*DMipmaps 能夠將非2^n的紋理轉化帶有MipMaps的標準OpenGL紋理。不過gluBuild*DMipMaps不支持壓縮紋理的自動Mipmap。

進一步閱讀：glu Manual:
ftp://ftp.sgi.com/opengl/doc/opengl1.2/glu1.3.pdf

4.3 紋理組合
在遊戲或者可視化應用中，我們總是會遇到許多非常小的紋理，一種比較好的辦法是我們把這些紋理組合成一個比較大的紋理，例如256X256，這樣驅動程序在加載紋理的video memory的地址時候，驅動程序僅僅需要加載一次家可以了。這種方法在多個造型軟件中也經常見到，例如人體造型軟件Pose，它將一個人的頭髮，臉，眼睛，等組合爲一個紋理。

Advice: 將多個小紋理組合爲一個大紋理，然後修改對應三角形定點的紋理座標，或者使用glMatrixMode(GL_TEXTURE)對定點的紋理座標作幾何變換。

4.4 使用MultiTexture替代Multi-Pass

OpenGL 1.2.1 extension: GL_ARB_multitexture

Direct3D7(OpenGL .2.1)及更高版本支持的顯示卡都支持MutliTexture功能，我們可以充分利用這個特性做多紋理貼圖替代Multi-Pass。

例如我們希望會繪製一個可樂瓶子，而且這個可樂瓶子需要兩層標籤，利用Multi-Pass我們可以分三次繪製，

//繪製瓶子的本色，例如綠色，
glMaterial (…) ;

glDisable(GL_BLEND);
glDepthFunc(GL_LEQUAL);
glBegin(GL_TRIANGLE_STRIP);
    //Texture
    glNormal();
    glVertex(); ….
glEnd();
//繪製裏面的標籤
glDpethFunc(GL_EQUAL);
   glEnable(GL_BLEND);
glBindTexture(0,);
glBegin();
glTextCoord();
glVertex();
glEnd();

//繪製第二層標籤
glDpethFunc(GL_EQUAL);
glEnable(GL_BLEND);
glBindTexture(1,);
glBegin();
glTextCoord();
glVertex();
glEnd();

如果使用MutliTexture(OpenGL.2.1擴展)，我們只需要Single Pass完成這項工作：
glMaterial();
glDepthFunc(GL_LEQUAL);
glDisable(GL_BLEND);
glActiveTExtureARB(GL_TEXTURE0_ARB);
glTexEnv(,,GL_MODULATE);
glBindTExture(0);
glActiveTExtureARB(GL_TEXTURE1_ARB);
glTexEnv(,,GL_MODULATE);
glBindTExture(1);
glBegin(GL_TRIANGLE_STRIP);
glNormal();
glMultiTexCoord2fARB (GL_TEXTURE0_ARB,u0, v0 );
glMultiTexCoord2fARB (GL_TEXTURE1_ARB, u1, v1);
glVertex();
glEnd();

Mutlitexture的方法將比第一種方法節約流水線的4個運算步驟，Depth Test，Alpha Test，Alpha Blend，和 write to frame Buffers。

Advice：檢查OpenGL extension支持，儘可能使用MultiTexture。
進一步閱讀:
OpenGL specs:
http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:
http://oss.sgi.com/projects/ogl-sample/registry

4.5 使用壓縮紋理

OpenGL支持的壓縮紋理包括：
GL_COMPRESSED_RGB_S3TC_DXT1_EXT
GL_COMPRESSED_RGBA_S3TC_DXT1_EXT
GL_COMPRESSED_RGBA_S3TC_DXT3_EXT
GL_COMPRESSED_RGBA_S3TC_DXT5_EXT
壓縮紋理比非壓縮紋理具有更快的運算速度和更小的存儲空間要求，而且很容易使用圖形硬件紋理Cache。因此能夠顯著地提高應用程序性能，特別應用程序的紋理數據量巨大。

缺點：要求紋理的色彩空間規律性極強，否則會造成嚴重的顏色失真。

建議：檢查下面的三個OpenGL Extension，儘可能地使用壓縮紋理。
GL_ARB_texture_compression
GL_EXT_texture_compression_s3tc
GL_S3_s3tc

Advice：檢查OpenGL extension支持，儘可能使用MultiTexture。
進一步閱讀:
OpenGL specs:
http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:
http://oss.sgi.com/projects/ogl-sample/registry

我們可以使用DirectX SDK的工具產生壓縮紋理dxtex ，或者從nivdia獲得工具和Tutorial:
http://developer.nvidia.com/object/nv_texture_tools.html

4．6 合理的紋理尺寸
圖形硬件系統一般使用4X4，8X8，最高到64X64的紋理Cache策略，如果你的紋理比較簡單，在滿足可識感官的要求下，儘可能地使用較小的紋理尺寸。

5 Vertex Array

相對於glBegin, glEnd以及Display List， Vertex Array對於驅動程序而言具有最高的內存複製效率，因爲驅動程序僅僅需要一次內存數據移動，glBend, glEnd和Display List，則需要三次數據移動。因此儘可能多地使用glDrawArrays和glArrayElement的方式。

針對Vertex Array，OpenGL 有如下的Extensions:
GL_EXT_vertex_array
GL_ATI_element_array
GL_EXT_draw_range_elements
GL_EXT_compiled_vertex_array
GL_SUN_mesh_array
GL_ATI_vertex_attrib_array_object

其中前面三個是經常使用OpenGL extension，例如QuakeIII, CS， Half Life等。

進一步閱讀:
OpenGL specs:
http://www.opengl.org/developers/documentation/specs.html

OpenGL extension Registry:
http://oss.sgi.com/projects/ogl-sample/registry

6 Buffer Object

事實上，我上面所講到的內容都是傳統的OpenGL圖元定義，本質上都是通過glBegin和glEnd定義，都屬於立即模式繪製的一種方法。而Direct3D都是通過Vertex Buffer和Index Buffer實現圖元及其組成頂點的屬性定義。而Vertex Buffer和Index Buffer都在保存在video memory中，這樣應用程序不需要每次都把地頂點數據通過AGP發送給硬件，從而加快了處理速度。爲了在彌補這個缺陷，Nvidia和ATI推出了下面的Extension：
GL_ARB_vertex_buffer_object

同時這個extesion也爲OpenGL 的Vertex Proram（即 D3D9的Vertex Shader）服務，關於這個Extension相關內容比較多，我就不展開這個講述了。這裏告訴大家，它是比所有立即模式圖元定義方法都快的一個OpenGL extension。原因如下：
（1）它只需要一次複製到OpenGL申請的video memory，隨後驅動程序僅僅每次向圖形硬件報告它的物理地址；
（2）而對於立即模式的圖元定義，驅動程序每次都需要從內存中把數據複製到AGP non-local video memory，然後通過AGP總線發送到圖形硬件處理器。

請參考
OpenGL extension Registry:
http://oss.sgi.com/projects/ogl-sample/registry

7 Advanced Tech :Vertex Program 和 Fragment Program( D3D Vertex Shader和 Pixel Shader)

這篇內容太長長了，我把它放入到D3D9的專題中。

8 Less Operation for Depth Test，Stencil Test和 Alpha Test

事實上，Depth Test，Stencil Test，Alpha Test能夠影響到OpenGL 像素填充的30%。也就是說，如果你對他們進行優化，能夠獲得30%的性能。

我曾經對quake III的性能優化做過測試，得到下面結果；
   Disable Depth Test        2%   gain
   Disable Alpha Test    6%   gain
   Disable Alpha blend   2%   gain
   Disable Depth Clear always15% gain

事實上，Quake III本身能夠進一步優化，大家都知道Quake III是最經典的一個遊戲引擎，它繪製圖形採用BSP的結構，使用多紋理貼圖和Alpha Blend獲得非常好的光照效果，繪製圖元的順序是從最遠處的物體到最近處的物體，由遠及近的次序，那麼如果QuakeIII把它改作由近及遠的次序，Quake III中也少數的三角形遮擋關係，採用由近及遠的次序繪製圖形的時候，Depth Test將扔掉5%~10%甚至更多的片斷（像素），那麼流水線後面的操作將不會被執行，從而獲得性能的提高，我相信這將會帶來5%~15%的性能提高。

那麼對於室外場景的漫遊，我建議大家採用由近及遠的次序。也許會帶來極大的性能提高。

9 Fast Shadow
很多人都在做類似的工作，我想以後拋磚引玉，作爲一個單獨的專題介紹。

10 MISC: LOD, cull, SwpaBuffers, wglMakeCurrent etc

最後一部分的小標題比較古怪，是個大雜燴。

10．1 LOD

這個許多人都知道了，我就不多說了，就是較少幾何數據量（Vertex）和紋理運算量(Texture LOD: mipmap)。

10.2 CULL Face
CULL Face就是北面刪除，如果不繪製背面的三角形，理論上可以獲得接近50%的性能提高，前提是假設TnL或者Vertex Shader足夠的快。
glEnable(GL_CULL_FACE) ;
glCullFace(GL_BACK);

在我對QuakeIII的測試中，儘管QuakeIII是基於BSP樹的，理論上QuakeIII不應該有背面的物體，我仍然獲得了3%~5%的性能提高（不同的CPU和總線速度）。

１0.3SwapBuffers
事實上，全屏幕的OpenGL程序是調用IDirectDrawSurface7::Flip或IDirect3DDevice8::Present，那麼每進行FLIP操作將比窗口的OpenGL程序少作1024X768X4 bytes的顯示內存數據移動，將設分辨率爲1024X768X32bits，根據不同的應用，能夠獲得相當可觀的性能提高，大家可以自己算算。

10.4 wglMakeCurrent
wglMakeCurrent是一個非常耗時的操作，２００１年我對Geoforce3 Ti500進行了測試，在最好的情況下，Geoforce3 Ti500能夠做５０００次／秒。當時的CPU速度好像是800M還是1.4Ghz。我不太清楚了。同時wglMakeCurrent也許會帶來副作用，一些圖像可能發生丟失。其中一個典型的測試，indy3D就是採用這種方法，我在跟蹤這種程序的時候，覺得Sense8(開發vtk的那個公司)程序設計能力太糟糕了。

Advice:一定要避免調用wglMakeCurrent。

寫了３。５小時，手指頭已經很痛了，休息一下。

11 避免像素操作（Pixel）
在OpenGL的實現中，都是使用純軟件的方法實現從系統內存到video memory 的複製，那麼這些將中斷整個圖形流水線的執行，等待硬件空閒後使用CPU完成，它們將大大降低程序的執行效率。
glBitmap，
glDrawPixels
glReadPixels
glCopyPixels

解決辦法：使用紋理替代像素操作，例如建設你希望在屏幕輸出一行字，例如”Qauke III Arena”，那首先產生一個紋理，它包含所有的字母和數字，我這裏無法貼BMP圖像，我畫一個存儲結構：代表RGBA各式的2D 紋理，這是Quake III的字母紋理順序。
A B C D E F G H I J KLM
N O P Q R S T U V WX Y Z
a b c d ….
1 2 3 4 5 6 9 8 9 0
使用兩個三角形產生一個字母或者數字。

補充：4.5 使用壓縮紋理
我們可以使用DirectX SDK的工具產生壓縮紋理dxtex ，或者從nivdia獲得工具和Tutorial:
http://developer.nvidia.com/object/nv_texture_tools.html

-=-=-=-=-=>

OpenGL Performance Optimization

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

mandriva 2006 ati顯卡安裝指南

osx86 10.4.3 BF1118 的界面

Use_hdparm_to_improve_IDE_device_performance

ubuntu編譯內核以後生成splash

Using OpenGL's Vertex Buffer Extension (ARB_vertex_buffer_object)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結