JVM參數調優實踐終結篇,無停滯

JVM參數調優是個很頭痛的問題,設置的不好,JVM不斷執行Full GC,導致整個系統變得很慢,網站停滯時間能達10秒以上,這種情況如果沒隔幾分鐘就來一次,自己都受不了。這種停滯在測試的時候看不出來,只有網站pv達到數十萬/天的時候問題就暴露出來了。

要想配置好JVM參數,需要對年輕代、年老代、救助空間和永久代有一定了解,還要了解jvm內存管理邏輯,最終還要根據自己的應用來做調整。關於JVM參數上網一搜就能搜出一大把,也有很多提供實踐的例子,我也按照各種例子測試過,最終還是會出現問題。

經過幾個月的實踐改善,我就網站(要求無停滯時間)的jvm參數調優給出以下幾條經驗。

1:建議用64位操作系統,Linux下64位的jdk比32位jdk要慢一些,但是喫得內存更多,吞吐量更大。

2:XMX和XMS設置一樣大,MaxPermSize和MinPermSize設置一樣大,這樣可以減輕伸縮堆大小帶來的壓力。

3:調試的時候設置一些打印參數,如-XX:+PrintClassHistogram -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintHeapAtGC -Xloggc:log/gc.log,這樣可以從gc.log裏看出一些端倪出來。

4:系統停頓的時候可能是GC的問題也可能是程序的問題,多用jmap和jstack查看,或者killall -3 java,然後查看java控制檯日誌,能看出很多問題。有一次,網站突然很慢,jstack一看,原來是自己寫的URLConnection連接太多沒有釋放,改一下程序就OK了。

5:仔細瞭解自己的應用,如果用了緩存,那麼年老代應該大一些,緩存的HashMap不應該無限制長,建議採用LRU算法的Map做緩存,LRUMap的最大長度也要根據實際情況設定。

6:垃圾回收時promotion failed是個很頭痛的問題,一般可能是兩種原因產生,第一個原因是救助空間不夠,救助空間裏的對象還不應該被移動到年老代,但年輕代又有很多對象需要放入救助空間;第二個原因是年老代沒有足夠的空間接納來自年輕代的對象;這兩種情況都會轉向Full GC,網站停頓時間較長。第一個原因我的最終解決辦法是去掉救助空間,設置-XX:SurvivorRatio=65536 -XX:MaxTenuringThreshold=0即可,第二個原因我的解決辦法是設置CMSInitiatingOccupancyFraction爲某個值(假設70),這樣年老代空間到70%時就開始執行CMS,年老代有足夠的空間接納來自年輕代的對象。

7:不管怎樣,永久代還是會逐漸變滿,所以隔三差五重起java服務器是必要的,我每天都自動重起。

8:採用併發回收時,年輕代小一點,年老代要大,因爲年老大用的是併發回收,即使時間長點也不會影響其他程序繼續運行,網站不會停頓。

我的最終配置如下(系統8G內存),每天幾百萬pv一點問題都沒有,網站沒有停頓,2009年網站沒有因爲內存問題down過機。

$JAVA_ARGS .= " -Dresin.home=$SERVER_ROOT -server -Xms6000M -Xmx6000M -Xmn500M -XX:PermSize=500M -XX:MaxPermSize=500M -XX:SurvivorRatio=65536 -XX:MaxTenuringThreshold=0 -Xnoclassgc -XX:+DisableExplicitGC -XX:+UseParNewGC -XX:+UseConcMarkSweepGC -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=0 -XX:+CMSClassUnloadingEnabled -XX:-CMSParallelRemarkEnabled -XX:CMSInitiatingOccupancyFraction=90 -XX:SoftRefLRUPolicyMSPerMB=0 -XX:+PrintClassHistogram -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+PrintHeapAtGC -Xloggc:log/gc.log ";

說明一下, -XX:SurvivorRatio=65536 -XX:MaxTenuringThreshold=0就是去掉了救助空間;
-Xnoclassgc禁用類垃圾回收,性能會高一點;
-XX:+DisableExplicitGC禁止System.gc(),免得程序員誤調用gc方法影響性能;
-XX:+UseParNewGC,對年輕代採用多線程並行回收,這樣收得快;
帶CMS參數的都是和併發回收相關的,不明白的可以上網搜索;
CMSInitiatingOccupancyFraction,這個參數設置有很大技巧,基本上滿足(Xmx-Xmn)*(100-CMSInitiatingOccupancyFraction)/100>=Xmn就不會出現promotion failed。在我的應用中Xmx是6000,Xmn是500,那麼Xmx-Xmn是5500兆,也就是年老代有5500兆,CMSInitiatingOccupancyFraction=90說明年老代到90%滿的時候開始執行對年老代的併發垃圾回收(CMS),這時還剩10%的空間是5500*10%=550兆,所以即使Xmn(也就是年輕代共500兆)裏所有對象都搬到年老代裏,550兆的空間也足夠了,所以只要滿足上面的公式,就不會出現垃圾回收時的promotion failed;
SoftRefLRUPolicyMSPerMB這個參數我認爲可能有點用,官方解釋是softly reachable objects will remain alive for some amount of time after the last time they were referenced. The default value is one second of lifetime per free megabyte in the heap,我覺得沒必要等1秒;

網上其他介紹JVM參數的也比較多,估計其中大部分是沒有遇到promotion failed,或者訪問量太小沒有機會遇到,(Xmx-Xmn)*(100-CMSInitiatingOccupancyFraction)/100>=Xmn這個公式絕對是原創,真遇到promotion failed了,還得這麼處理。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章