轉自http://www.rowkey.me/blog/2016/11/02/java-profile/?hmsr=toutiao.io&utm_medium=toutiao.io&utm_source=toutiao.io

JVM常用參數選項

jvm 可配置的參數選項可以參考 Oracle 官方網站給出的相關信息：http://www.oracle.com/technetwork/java/javase/tech/vmoptions-jsp-140102.html
下面只列舉其中的幾個常用和容易掌握的配置選項

配置參數	功能
-Xms	初始堆大小。如：-Xms256m
-Xmx	最大堆大小。如：-Xmx512m
-Xmn	新生代大小。通常爲 Xmx 的 1/3 或 1/4。新生代 = Eden + 2 個 Survivor 空間。實際可用空間爲 = Eden + 1 個 Survivor，即 90%
-Xss	JDK1.5+ 每個線程堆棧大小爲 1M，一般來說如果棧不是很深的話， 1M 是絕對夠用了的。
-XX:NewRatio	新生代與老年代的比例，如 –XX:NewRatio=2，則新生代佔整個堆空間的1/3，老年代佔2/3
-XX:SurvivorRatio	新生代中 Eden 與 Survivor 的比值。默認值爲 8。即 Eden 佔新生代空間的 8/10，另外兩個 Survivor 各佔 1/10
-XX:PermSize	永久代(方法區)的初始大小
-XX:MaxPermSize	永久代(方法區)的最大值
-XX:+PrintGCDetails	打印 GC 信息
-XX:+HeapDumpOnOutOfMemoryError	讓虛擬機在發生內存溢出時 Dump 出當前的內存堆轉儲快照，以便分析用

注意：PermSize永久代的概念在jdk1.8中已經不存在了，取而代之的是metaspace元空間，當認爲執行永久代的初始大小以及最大值是jvm會給出如此下提示：
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=30m; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=30m; support was removed in 8.0

GC調優參數總結

從前面的3篇文章中，我們分析了5個垃圾收集器，還有一些 GC 的算法，那麼，在 GC 調優中，我們肯定會先判斷哪裏出現的問題，然後再根據出現的問題進行調優，而調優的手段就是 JVM 提供給我們的那些參數或者說選項，這些參數將會改變 GC 的運行方式。因此，他們顯得極爲重要。

我們將每一個垃圾收集器相關的參數一個一個娓娓道來，注意，樓主推薦一個小程序：前阿里 JVM 大神寒泉子的公衆號裏面有個小程序------JVM Pocket，這個小程序介紹了所有的 JVM 參數的作用，你可以在裏面搜索你想知道的參數，也可以把你瞭解的參數寫上去供大家參考。公衆號：lovestblog。

值得注意的一點是，這些參數可能會重複，還記得我們之前的那張圖嗎，樓主覺得有必要再發一次：

可以看到，這些收集器會有一些重複，而且，某些參數也是會作用於所有的處理器，因此，我們下面的介紹可能會有一些重複。

還有一點就是，JVM 爲我們設置了很多默認的參數，但是，如果可以的話，還是建議使用顯式的聲明，這樣更能表達意圖。否則，別人不一定知道我們是否知道這些默認值。

我們開始我們的參數之旅吧！

# 1. Serial 收集器參數

串行收集器，client 的默認收集器，分爲年輕代 Serial 和老年代 Serial Old 收集器。

-XX:+UseSerialGC 這個參數就是可以指定使用新生代串行收集器和老年代串行收集器， “+” 號的意思是ture，開啓，反之，如果是 “-”號，則是關閉。
-XX:+UseParNewGC 新生代使用 ParNew 回收器，老年代使用串行收集器。
-XX:+UseParallelGC 新生代私用 ParallelGC 回收器，老年代使用串行收集器。

而 Serial 收集器出現的日誌爲 DefNew .

# 2. ParNew 收集器參數

並行收集器是 Serial 的多線程版本，在 CPU 並行能力強大的計算機上有很大優勢。

其中：

-XX:+UseParNewGC 上面說過了，新生代使用 ParNew 收集器，老年代使用串行收集器。
-XX:+UseConcMarkSweepGC: 新生代使用 ParNew 回收器，老年代使用 CMS。
-XX:ParallelGCThreads={value} 這個參數是指定並行 GC 線程的數量，一般最好和 CPU 核心數量相當。默認情況下，當 CPU 數量小於8， ParallelGCThreads 的值等於 CPU 數量，當 CPU 數量大於 8 時，則使用公式：3+（（5*CPU）/ 8）；同時這個參數只要是並行 GC 都可以使用，不只是 ParNew。

而 ParNew 的 GC 日誌則表吸納出 ParNew。

# 3. PS 收集器參數

全稱 Parallel Scavenge 收集器，該收集器是 Java 8 的默認收集器，因爲它能夠根據系統當前狀態給出吞吐量最高的GC 配置。所以，在一些手工調優複雜的場合或者對實時性要求不高的場合，可以使用該處理器。

有哪些參數呢？

-XX:MaxGCPauseMillis 設置最大垃圾收集停頓時間，他的值是一個大於0的整數。ParallelGC 工作時，會調整 Java 堆大小或者其他的一些參數，儘可能的把停頓時間控制在 MaxGCPauseMillis 以內。如果爲了將停頓時間設置的很小，將此值也設置的很小，那麼 PS 將會把堆設置的也很小，這將會到值頻繁 GC ，雖然系統停頓時間小了，但總吞吐量下降了。
-XX:GCTimeRatio 設置吞吐量大小，他的值是一個0 到100之間的整數，假設 GCTimeRatio 的值是 n ，那麼系統將花費不超過 1/(1+n) 的時間用於垃圾收集，默認 n 是99，即不超過1% 的時間用於垃圾收集。
-XX:+UseParallelGC 新生代使用 ParallelGC 回收器，老年代使用串行回收器。
-XX:+UseParallelOldGC 新生代使用 ParallelGC 回收器，老年代使用 ParallelOldGC 回收器。
-XX:UseAdaptiveSizePolicy: 打開自適應策略。在這種模式下，新生代的大小，eden 和 Survivor 的比例，晉升老年代的對象年齡等參數會被自動調整。以達到堆大小，吞吐量，停頓時間的平衡點。

聰明的同學相比看出來了，1 和 2 兩個參數是矛盾的。因爲吞吐量和停頓時間就是矛盾的。所以，要根據應用的特性來進行設置，以達到最優水平。

同時，Parallel Old 收集器也是一種關注吞吐量的並行的老年代回收器。

-XX:+UseParallelOldGC 新生代使用 ParallelGC 回收器，老年代使用 ParallelOldGC 回收器。該參數可以啓用 ParallelOldGC。
-XX:ParallelGCGThreads 同時可以指定該參數設置並行線程數量。

而 PS 處理器的 GC 日誌則是 PSYoungGen。

# 4. CMS 收集器參數

CMS 處理器關注的是停頓時間。全稱 Concurrent Mark Sweep。因爲該處理器較爲複雜，因此可以使用較多參數。

-XX:-CMSPrecleaningEnabled 不進行預清理，度過我們之前的文章的都知道，CMS 在併發標記和重新標記的這段時間內，會有一個預清理的工作，而這個通過會嘗試5秒之內等待來一次 YGC。以免在後面的重新標記階段耗費大量時間來標記新生代的對象。
-XX:+UseConcMarkSweepGC 此參數將啓動 CMS 回收器。默認新生代是 ParNew，也可以設置 Serial 爲新生代收集器。該參數等價於 -Xconcgc。
-XX:ParallelGCThreads 由於是並行處理器，當然也可以指定線程數。默認併發線程數是：（ParallelGCThreads + 3）/ 4）。
-XX:ConcGCThreads 或者 -XX:ParallelCMSThreads ；除了上面設置線程的方式，你也可以通過這個兩個參數任意一個手工設定 CMS 併發線程數。
-XX:CMSInitiatingOccupancyFraction 由於 CMS 回收器不是獨佔式的，在垃圾回收的時候應用程序仍在工作，所以需要留出足夠的內存給應用程序，否則會觸發 FGC。而什麼時候運行 CMS GC 呢？通過該參數即可設置，該參數表示的是老年代的內存使用百分比。當達到這個閾值就會執行 CMS。默認是68。如果老年代內存增長很快，建議降低閾值，避免 FGC，如果增長慢，則可以加大閾值，減少 CMS GC 次數。提高吞吐量。
-XX：+UseCMSCompactAtFullCollection 由於 CMS 使用標記清理算法，內存碎片無法避免。該參數指定每次 CMS 後進行一次碎片整理。
-XX:CMSFullGCsBeforeCompaction 由於每次進行碎片整理將會影響性能，你可以使用該參數設定多少次 CMS 後才進行一次碎片整理，也就是內存壓縮。
-XX:+CMSClassUnloadingEnabled 允許對類元數據進行回收。
-XX:CMSInitiatingPermOccupancyFraction 當永久區佔用率達到這一百分比時，啓動 CMS 回收（前提是 -XX:+CMSClassUnloadingEnabled 激活了）。
-XX:UseCMSInitiatingOccupancyOnly 表示只在到達閾值的時候才進行 CMS 回收。
XX:CMSWaitDuration=2000 由於CMS GC 條件比較簡單，JVM有一個線程定時掃描Old區，時間間隔可以通過該參數指定（毫秒單位），默認是2s。

CMS 的 GC 日誌就是 CMS。

# 5. G1 收集器參數

作爲 Java 9 的默認垃圾收集器，該收集器和之前的收集器大不相同，該收集器可以工作在young 區，也可以工作在 old 區。有哪些參數呢？

-XX:+UseG1GC 開啓 G1 收集器。
-XX:MaxGCPauseMillis 用於指定最大停頓時間，如果任何一次停頓超過這個設置值時，G1 就會嘗試調整新生代和老年代的比例，調整堆大小，調整晉升年齡的手段，試圖達到目標。和 PS 一樣，停頓時間小了，對應的吞吐量也會變小。這點值得注意。
-XX:ParallelGCThreads 由於是並行併發的，可以指定GC 工作線程數量。
-XX:InitiatingHeapOccupancyPercent 該參數可以指定當整個堆使用率達到多少時，觸發併發標記週期的執行。默認值時45，即當堆的使用率達到45%，執行併發標記週期，該值一旦設置，始終都不會被 G1修改。也就是說，G1 就算爲了滿足 MaxGCPauseMillis 也不會修改此值。如果該值設置的很大，導致併發週期遲遲得不到啓動，那麼引起 FGC 的機率將會變大。如果過小，則會頻繁標記，GC 線程搶佔應用程序CPU 資源，性能將會下降。
-XX:GCPauseIntervalMillis 設置停頓時間間隔。

# 6. 一些通用參數

在 GC 調優中，還有一些通用的參數。通常是我們的好幫手。

-XX:-+DisableExplicitGC 禁用 System.gc()，由於該方法默認會觸發 FGC，並且忽略參數中的 UseG1GC 和 UseConcMarkSweepGC，因此必要時可以禁用該方法。
-XX:+ExplicitGCInvokesConcurrent 該參數可以改變上面的行爲，也就是說，System.gc() 後不使用 FGC ，而是使用配置的併發收集器進行併發收集。注意：使用此選項就不要使用上面的選項。
-XX:-ScavengeBeforeFullGC 由於大部分 FGC 之前都會 YGC，減輕了 FGC 的壓力，縮短了 FGC 的停頓時間，但也可能你不需要這個特性，那麼你可以使用這個參數關閉，默認是 ture 開啓。
-XX:MaxTenuringThreshold={value} 新生代 to 區的對象在經過多次 GC 後，如果還沒有死亡，則認爲他是一個老對象，則可以晉升到老年代，而這個年齡（GC 次數）是可以設置的，有就是這個參數。默認值時15。超過15 則認爲是無限大(因爲age變量時4個 bit，超過15無法表達)。但該參數不是唯一決定對象晉升的條件。當 to 區不夠或者改對象年齡已經達到了平均晉升值或者大對象等等條件。
-XX:TargetSurvivorRatio={value} 決定對何時晉升的不僅只有 XX:MaxTenuringThreshold 參數，如果在 Survivor 空間中相同年齡所有對象大小的總和大魚 Survivor 空間的一半（默認50%），年齡大於或等於該年齡的對象就可以直接進入老年代。無需在乎 XX:MaxTenuringThreshold參數。因此，MaxTenuringThreshold 只是對象晉升的最大年齡。如果將 TargetSurvivorRatio 設置的很小，對象將晉升的很快。
-XX:PretenureSizeThresholds={value} 除了年齡外，對象的體積也是影響晉升的一個關鍵，也就是大對象。如果一個對象新生代放不下，只能直接通過分配擔保機制進入老年代。該參數是設置對象直接晉升到老年代的閾值，單位是字節。只要對象的大小大於此閾值，就會直接繞過新生代，直接進入老年代。注意：這個參數只對 Serial 和 ParNew 有效，ParallelGC 無效，默認情況下該值爲0，也就是不指定最大的晉升大小，一切有運行情況決定。
-XX:-UseTLAB 禁用線程本地分配緩存。TLAB 的全稱是 Thread LocalAllocation Buffer ，即線程本地線程分配緩存，是一個線程私有的內存區域。該設計是爲了加速對象分配速度。由於對象一般都是分配在堆上，而對是線程共享的。因此肯定有鎖，雖然使用 CAS 的操作，但性能仍有優化空間。通過爲每一個線程分配一個 TLAB 的空間（在 eden 區），可以消除多個線程同步的開銷。默認開啓。
-XX:TLABSize 指定 TLAB 的大小。
-XX:+PrintTLAB 跟蹤 TLAB 的使用情況。用以確定是用多大的 TLABSize。
-XX:+ResizeTLAB 自動調整 TLAB 大小。

同時，對象也可能會在棧上分配，棧上分配，TLAB 分配，堆分配，他們的流程如下：

對象分配流程

還有一些開啓 GC 日誌的參數，是 GC 調優不可或缺的工具。

-XX:+PrintGCDateStamps 打印 GC 日誌時間戳。
-XX:+PrintGCDetails 打印 GC 詳情。
-XX:+PrintGCTimeStamps: 打印此次垃圾回收距離jvm開始運行的所耗時間。
-Xloggc:<filename> 將垃圾回收信息輸出到指定文件
-verbose:gc 打印 GC 日誌
-XX:+PrintGCApplicationStopedTime 查看 gc 造成的應用暫停時間
XX:+PrintTenuringDistribution, 對象晉升的日誌
-XX:+HeapDumpOnOutOfMemoryError 內存溢出時輸出 dump 文件。

# 總結

好了，我們已經將一些常用的 GC 參數介紹了，當然會有遺漏的，如有遺漏或者介紹有誤的，請告知本人。這些參數不僅僅是爲了服務大家，同時也是自己做的一個總結，以後就不用到處找了。說白了這就是寫博客的好處：總結了自己，也做了備份，同時也可能幫助了別人。

作者：莫那一魯道
鏈接：https://www.jianshu.com/p/74d126dd5544
來源：簡書
著作權歸作者所有。商業轉載請聯繫作者獲得授權，非商業轉載請註明出處。

Java調優經驗談

Nov 2nd, 2016 Posted by 颯然Hang in java

性能監控：問題沒有發生，你並不知道你需要調優什麼。此時需要一些系統、應用的監控工具來發現問題。
性能分析：問題已經發生，但是你並不知道問題到底出在哪裏。此時就需要使用工具、經驗對系統、應用進行瓶頸分析，以求定位到問題原因。
性能調優：經過上一步的分析定位到了問題所在，需要對問題進行解決，使用代碼、配置等手段進行優化。

Java調優也不外乎這三步。

此外，本文所講的性能分析、調優等是拋開以下因素的：

系統底層環境：硬件、操作系統等
數據結構和算法的使用
外部系統如數據庫、緩存的使用

調優準備

調優是需要做好準備工作的，畢竟每一個應用的業務目標都不盡相同，性能瓶頸也不會總在同一個點上。在業務應用層面，我們需要：

需要了解系統的總體架構，明確壓力方向。比如系統的哪一個接口、模塊是使用率最高的，面臨高併發的挑戰。
需要構建測試環境來測試應用的性能，使用ab、loadrunner、jmeter都可以。
對關鍵業務數據量進行分析，這裏主要指的是對一些數據的量化分析，如數據庫一天的數據量有多少；緩存的數據量有多大等
瞭解系統的響應速度、吞吐量、TPS、QPS等指標需求，比如秒殺系統對響應速度和QPS的要求是非常高的。
瞭解系統相關軟件的版本、模式和參數等，有時候限於應用依賴服務的版本、模式等，性能也會受到一定的影響。

此外，我們還需要了解Java相關的一些知識：

Java內存相關：這一部分可以參見談談Java內存管理一文
對Java代碼進行基準性能測試：可以使用JMH來進行，[譯]使用JMH進行微基準測試：不要猜，要測試！。
HotSpot VM相關知識：http://www.oracle.com/technetwork/cn/java/javase/tech/index-jsp-136373-zhs.html
jdk自帶各種java工具：http://www.rowkey.me/blog/2016/11/03/jdk-tools/

性能分析

在系統層面能夠影響應用性能的一般包括三個因素：CPU、內存和IO，可以從這三方面進行程序的性能瓶頸分析。

CPU分析

當程序響應變慢的時候，首先使用top、vmstat、ps等命令查看系統的cpu使用率是否有異常，從而可以判斷出是否是cpu繁忙造成的性能問題。其中，主要通過us（用戶進程所佔的%）這個數據來看異常的進程信息。當us接近100%甚至更高時，可以確定是cpu繁忙造成的響應緩慢。一般說來，cpu繁忙的原因有以下幾個：

線程中有無限空循環、無阻塞、正則匹配或者單純的計算
發生了頻繁的gc
多線程的上下文切換

確定好cpu使用率最高的進程之後就可以使用jstack來打印出異常進程的堆棧信息：

jstack [pid]

接下來需要注意的一點是，Linux下所有線程最終還是以輕量級進程的形式存在系統中的，而使用jstack只能打印出進程的信息，這些信息裏面包含了此進程下面所有線程（輕量級進程-LWP）的堆棧信息。因此，進一步的需要確定是哪一個線程耗費了大量CPU，此時可以使用top -p [processId] -H來查看，也可以直接通過ps -Le來顯示所有進程,包括LWP的資源耗費信息。最後，通過在jstack的輸出文件中查找對應的LWP的id即可以定位到相應的堆棧信息。其中需要注意的是線程的狀態：RUNNABLE、WAITING等。對於Runnable的進程需要注意是否有耗費cpu的計算。對於Waiting的線程一般是鎖的等待操作。

也可以使用jstat來查看對應進程的gc信息，以判斷是否是gc造成了cpu繁忙。

jstat -gcutil [pid]

還可以通過vmstat，通過觀察內核狀態的上下文切換(cs)次數，來判斷是否是上下文切換造成的cpu繁忙。

vmstat 1 5

此外，有時候可能會由jit引起一些cpu飈高的情形，如大量方法編譯等。這裏可以使用-XX:+PrintCompilation這個參數輸出jit編譯情況，以排查jit編譯引起的cpu問題。

內存分析

對Java應用來說，內存主要是由堆外內存和堆內內存組成。

堆外內存
堆外內存主要是JNI、Deflater/Inflater、DirectByteBuffer（nio中會用到）使用的。對於這種堆外內存的分析，還是需要先通過vmstat、sar、top、pidstat(這裏的sar,pidstat以及iostat都是sysstat軟件套件的一部分，需要單獨安裝)等查看swap和物理內存的消耗狀況再做判斷的。此外，對於JNI、Deflater這種調用可以通過Google-preftools來追蹤資源使用狀況。
堆內內存
此部分內存爲Java應用主要的內存區域。通常與這部分內存性能相關的有：
以上使用不當很容易造成：
排查堆內存問題的常用工具是jmap，是jdk自帶的。一些常用用法如下：
此外，不管是使用jmap還是在OOM時產生的dump文件，可以使用Eclipse的MAT(MEMORY ANALYZER TOOL)來分析，可以看到具體的堆棧和內存中對象的信息。當然jdk自帶的jhat也能夠查看dump文件(啓動web端口供開發者使用瀏覽器瀏覽堆內對象的信息)。此外，VisualVM也能夠打開hprof文件，使用它的heap walker查看堆內存信息。

查看jvm內存使用狀況：jmap -heap
查看jvm內存存活的對象：jmap -histo:live
把heap裏所有對象都dump下來，無論對象是死是活：jmap -dump:format=b,file=xxx.hprof
先做一次full GC，再dump，只包含仍然存活的對象信息：jmap -dump:format=b,live,file=xxx.hprof

Heap space：堆內存不足
PermGen space：永久代內存不足
Native thread：本地線程沒有足夠內存可分配

頻繁GC -> Stop the world，使你的應用響應變慢
OOM，直接造成內存溢出錯誤使得程序退出。OOM又可以分爲以下幾種：

創建的對象：這個是存儲在堆中的，需要控制好對象的數量和大小，尤其是大的對象很容易進入老年代
全局集合：全局集合通常是生命週期比較長的，因此需要特別注意全局集合的使用
緩存：緩存選用的數據結構不同，會很大程序影響內存的大小和gc
ClassLoader：主要是動態加載類容易造成永久代內存不足
多線程：線程分配會佔用本地內存，過多的線程也會造成內存不足

IO分析

通常與應用性能相關的包括：文件IO和網絡IO。

文件IO
可以使用系統工具pidstat、iostat、vmstat來查看io的狀況。這裏可以看一張使用vmstat的結果圖。
這裏主要注意bi和bo這兩個值，分別表示塊設備每秒接收的塊數量和塊設備每秒發送的塊數量，由此可以判定io繁忙狀況。進一步的可以通過使用strace工具定位對文件io的系統調用。通常，造成文件io性能差的原因不外乎：

大量的隨機讀寫
設備慢
文件太大

網絡IO

查看網絡io狀況，一般使用的是netstat工具。可以查看所有連接的狀況、數目、端口信息等。例如：當time_wait或者close_wait連接過多時，會影響應用的相應速度。

 netstat -anp

此外，還可以使用tcpdump來具體分析網絡io的數據。當然，tcpdump出的文件直接打開是一堆二進制的數據，可以使用wireshark閱讀具體的連接以及其中數據的內容。

 tcpdump -i eth0 -w tmp.cap -tnn dst port 8080 #監聽8080端口的網絡請求並打印日誌到tmp.cap中

還可以通過查看/proc/interrupts來獲取當前系統使用的中斷的情況。

各個列依次是：

 irq的序號， 在各自cpu上發生中斷的次數，可編程中斷控制器，設備名稱（request_irq的dev_name字段）

通過查看網卡設備的終端情況可以判斷網絡io的狀況。

其他分析工具

上面分別針對CPU、內存以及IO講了一些系統/JDK自帶的分析工具。除此之外，還有一些綜合分析工具或者框架可以更加方便我們對Java應用性能的排查、分析、定位等。

VisualVM
這個工具應該是Java開發者們非常熟悉的一款java應用監測工具，原理是通過jmx接口來連接jvm進程，從而能夠看到jvm上的線程、內存、類等信息。如果想進一步查看gc情況，可以安裝visual gc插件。此外，visualvm也有btrace的插件，可以可視化直觀的編寫btrace代碼並查看輸出日誌。與VisualVm類似的，jconsole也是通過jmx查看遠程jvm信息的一款工具，更進一步的，通過它還可以顯示具體的線程堆棧信息以及內存中各個年代的佔用情況，也支持直接遠程執行MBEAN。當然，visualvm通過安裝jconsole插件也可以擁有這些功能。但由於這倆工具都是需要ui界面的，因此一般都是通過本地遠程連接服務器jvm進程。服務器環境下，一般並不用此種方式。
Java Mission Control(jmc)
此工具是jdk7 u40開始自帶的，原來是JRockit上的工具，是一款採樣型的集診斷、分析和監控與一體的非常強大的工具: https://docs.oracle.com/javacomponents/jmc-5-5/jmc-user-guide/toc.htm。但是此工具是基於JFR(jcmd JFR.start name=test duration=60s settings=template.jfc filename=output.jfr)的，而開啓JFR需要商業證書：jcmdVM.unlock_commercial_features。
Btrace
這裏不得不提的是btrace這個神器，它使用java attach api+ java agent + instrument api能夠實現jvm的動態追蹤。在不重啓應用的情況下可以加入攔截類的方法以打印日誌等。具體的用法可以參考Btrace入門到熟練小工完全指南。
Jwebap
Jwebap是一款JavaEE性能檢測框架，基於asm增強字節碼實現。支持：http請求、jdbc連接、method的調用軌跡跟蹤以及次數、耗時的統計。由此可以獲取最耗時的請求、方法，並可以查看jdbc連接的次數、是否關閉等。但此項目是2006年的一個項目，已經將近10年沒有更新。根據筆者使用，已經不支持jdk7編譯的應用。如果要使用，建議基於原項目二次開發，同時也可以加入對redis連接的軌跡跟蹤。當然，基於字節碼增強的原理，也可以實現自己的JavaEE性能監測框架。
上圖來自筆者公司二次開發過的jwebap，已經支持jdk8和redis連接追蹤。
useful-scripts
這裏有一個本人蔘與的開源的項目：https://github.com/superhj1987/useful-scripts，封裝了很多常用的性能分析命令，比如上文講的打印繁忙java線程堆棧信息，只需要執行一個腳本即可。

性能調優

與性能分析相對應，性能調優同樣分爲三部分。

CPU調優

不要存在一直運行的線程(無限while循環)，可以使用sleep休眠一段時間。這種情況普遍存在於一些pull方式消費數據的場景下，當一次pull沒有拿到數據的時候建議sleep一下，再做下一次pull。
輪詢的時候可以使用wait/notify機制
避免循環、正則表達式匹配、計算過多，包括使用String的format、split、replace方法(可以使用apache的commons-lang裏的StringUtils對應的方法)，使用正則去判斷郵箱格式(有時候會造成死循環)、序列/反序列化等。
結合jvm和代碼，避免產生頻繁的gc，尤其是full GC。

此外，使用多線程的時候，還需要注意以下幾點：

使用線程池，減少線程數以及線程的切換
多線程對於鎖的競爭可以考慮減小鎖的粒度(使用ReetrantLock)、拆分鎖(類似ConcurrentHashMap分bucket上鎖), 或者使用CAS、ThreadLocal、不可變對象等無鎖技術。此外，多線程代碼的編寫最好使用jdk提供的併發包、Executors框架以及ForkJoin等，此外Discuptor和Actor在合適的場景也可以使用。

內存調優

內存的調優主要就是對jvm的調優。

合理設置各個代的大小。避免新生代設置過小(不夠用，經常minor gc並進入老年代)以及過大(會產生碎片)，同樣也要避免Survivor設置過大和過小。
選擇合適的GC策略。需要根據不同的場景選擇合適的gc策略。這裏需要說的是，cms並非全能的。除非特別需要再設置，畢竟cms的新生代回收策略parnew並非最快的，且cms會產生碎片。此外，G1直到jdk8的出現也並沒有得到廣泛應用，並不建議使用。
jvm啓動參數配置-XX:+PrintGCDetails -XX:+PrintGCDateStamps -Xloggc:[log_path]，以記錄gc日誌，便於排查問題。

其中，對於第一點，具體的還有一點建議：

年輕代大小選擇：響應時間優先的應用，儘可能設大，直到接近系統的最低響應時間限制（根據實際情況選擇）。在此種情況下，年輕代收集發生gc的頻率是最小的。同時，也能夠減少到達年老代的對象。吞吐量優先的應用，也儘可能的設置大，因爲對響應時間沒有要求，垃圾收集可以並行進行，建議適合8CPU以上的應用使用。
年老代大小選擇：響應時間優先的應用，年老代一般都是使用併發收集器，所以其大小需要小心設置，一般要考慮併發會話率和會話持續時間等一些參數。如果堆設置小了，會造成內存碎片、高回收頻率以及應用暫停而使用傳統的標記清除方式；如果堆大了，則需要較長的收集時間。最優化的方案，一般需要參考以下數據獲得：
一般吞吐量優先的應用都應該有一個很大的年輕代和一個較小的年老代。這樣可以儘可能回收掉大部分短期對象，減少中期的對象，而年老代存放長期存活對象。
- 併發垃圾收集信息
- 持久代併發收集次數
- 傳統GC信息
- 花在年輕代和年老代回收上的時間比例

此外，較小堆引起的碎片問題：因爲年老代的併發收集器使用標記、清除算法，所以不會對堆進行壓縮。當收集器回收時，會把相鄰的空間進行合併，這樣可以分配給較大的對象。但是，當堆空間較小時，運行一段時間以後，就會出現“碎片”，如果併發收集器找不到足夠的空間，那麼併發收集器將會停止，然後使用傳統的標記、清除方式進行回收。如果出現“碎片”，可能需要進行如下配置：-XX:+UseCMSCompactAtFullCollection，使用併發收集器時，開啓對年老代的壓縮。同時使用-XX:CMSFullGCsBeforeCompaction=xx設置多少次Full GC後，對年老代進行壓縮。

其餘對於jvm的優化問題可見後面JVM參數進階一節。

代碼上，也需要注意：

避免保存重複的String對象，同時也需要小心String.subString()與String.intern()的使用，尤其是後者其底層數據結構爲StringTable，當字符串大量不重複時，會使得StringTable非常大(一個固定大小的hashmap，可以由參數-XX:StringTableSize=N設置大小)，從而影響young gc的速度。在jackson和fastjson中使用了此方法，某些場景下會引起gc問題: YGC越來越慢，爲什麼。
儘量不要使用finalizer
釋放不必要的引用：ThreadLocal使用完記得釋放以防止內存泄漏，各種stream使用完也記得close。
使用對象池避免無節制創建對象，造成頻繁gc。但不要隨便使用對象池，除非像連接池、線程池這種初始化/創建資源消耗較大的場景，
緩存失效算法，可以考慮使用SoftReference、WeakReference保存緩存對象
謹慎熱部署/加載的使用，尤其是動態加載類等
不要用Log4j輸出文件名、行號，因爲Log4j通過打印線程堆棧實現，生成大量String。此外，使用log4j時，建議此種經典用法，先判斷對應級別的日誌是否打開，再做操作，否則也會生成大量String。
```
  if (logger.isInfoEnabled()) {       logger.info(msg);   }
```

IO調優

文件IO上需要注意：

考慮使用異步寫入代替同步寫入，可以借鑑redis的aof機制。
利用緩存，減少隨機讀
儘量批量寫入，減少io次數和尋址
使用數據庫代替文件存儲

網絡IO上需要注意：

和文件IO類似，使用異步IO、多路複用IO/事件驅動IO代替同步阻塞IO
批量進行網絡IO,減少IO次數
使用緩存，減少對網絡數據的讀取
使用協程: Quasar

其他優化建議

算法、邏輯上是程序性能的首要，遇到性能問題，應該首先優化程序的邏輯處理
優先考慮使用返回值而不是異常表示錯誤
查看自己的代碼是否對內聯是友好的: 你的Java代碼對JIT編譯友好麼？

此外，jdk7、8在jvm的性能上做了一些增強：

通過-XX:+TieredCompilation開啓JDK7的多層編譯（tiered compilation）支持。多層編譯結合了客戶端C1編譯器和服務端C2編譯器的優點(客戶端編譯能夠快速啓動和及時優化，服務器端編譯可以提供更多的高級優化)，是一個非常高效利用資源的切面方案。在開始時先進行低層次的編譯，同時收集信息，在後期再進一步進行高層次的編譯進行高級優化。需要注意的一點：這個參數會消耗比較多的內存資源，因爲同一個方法被編譯了多次，存在多份native內存拷貝，建議把code cache調大一點兒（-XX:+ReservedCodeCacheSize，InitialCodeCacheSize）。否則有可能由於code cache不足，jit編譯的時候不停的嘗試清理code cache，丟棄無用方法，消耗大量資源在jit線程上。
Compressed Oops：壓縮指針在jdk7中的server模式下已經默認開啓。
Zero-Based Compressed Ordinary Object Pointers：當使用了上述的壓縮指針時，在64位jvm上，會要求操作系統保留從一個虛擬地址0開始的內存。如果操作系統支持這種請求，那麼就開啓了Zero-Based Compressed Oops。這樣可以使得無須在java堆的基地址添加任何地址補充即可把一個32位對象的偏移解碼成64位指針。
逃逸分析(Escape Analysis): Server模式的編譯器會根據代碼的情況，來判斷相關對象的逃逸類型，從而決定是否在堆中分配空間，是否進行標量替換(在棧上分配原子類型局部變量)。此外，也可以根據調用情況來決定是否自動消除同步控制，如StringBuffer。這個特性從Java SE 6u23開始就默認開啓。
NUMA Collector Enhancements：這個重要針對的是The Parallel Scavenger垃圾回收器。使其能夠利用NUMA (Non Uniform Memory Access，即每一個處理器核心都有本地內存，能夠低延遲、高帶寬訪問) 架構的機器的優勢來更快的進行gc。可以通過-XX:+UseNUMA開啓支持。

此外，網上還有很多過時的建議，不要再盲目跟隨:

變量用完設置爲null，加快內存回收，這種用法大部分情況下並沒有意義。一種情況除外：如果有個Java方法沒有被JIT編譯但裏面仍然有代碼會執行比較長時間，那麼在那段會執行長時間的代碼前顯式將不需要的引用類型局部變量置null是可取的。具體的可以見R大的解釋：https://www.zhihu.com/question/48059457/answer/113538171
方法參數設置爲final，這種用法也沒有太大的意義，尤其在jdk8中引入了effective final，會自動識別final變量。

JVM參數進階

jvm的參數設置一直是比較理不清的地方，很多時候都搞不清都有哪些參數可以配置，參數是什麼意思，爲什麼要這麼配置等。這裏主要針對這些做一些常識性的說明以及對一些容易讓人進入陷阱的參數做一些解釋。

以下所有都是針對Oracle/Sun JDK 6來講

啓動參數默認值
Java有很多的啓動參數，而且很多版本都並不一樣。但是現在網上充斥着各種資料，如果不加辨別的全部使用，很多是沒有效果或者本來就是默認值的。一般的，我們可以通過使用java -XX:+PrintFlagsInitial來查看所有可以設置的參數以及其默認值。也可以在程序啓動的時候加入-XX:+PrintCommandLineFlags來查看與默認值不相同的啓動參數。如果想查看所有啓動參數(包括和默認值相同的)，可以使用-XX:+PrintFlagsFinal。
輸出裏“=”表示使用的是初始默認值，而“:=”表示使用的不是初始默認值，可能是命令行傳進來的參數、配置文件裏的參數或者是ergonomics自動選擇了別的值。
此外，還可以使用jinfo命令顯示啓動的參數。
這裏需要指出的是，當你配置jvm參數時，最好是先通過以上命令查看對應參數的默認值再確定是否需要設置。也最好不要配置你搞不清用途的參數，畢竟默認值的設置是有它的合理之處的。

jinfo -flags [pid] #查看目前啓動使用的有效參數
jinfo -flag [flagName] [pid] #查看對應參數的值

動態設置參數

當Java應用啓動後，定位到了是GC造成的性能問題，但是你啓動的時候並沒有加入打印gc的參數，很多時候的做法就是重新加參數然後重啓應用。但這樣會造成一定時間的服務不可用。最佳的做法是能夠在不重啓應用的情況下，動態設置參數。使用jinfo可以做到這一點(本質上還是基於jmx的)。

 jinfo -flag [+/-][flagName] [pid] #啓用/禁止某個參數  jinfo -flag [flagName=value] [pid] #設置某個參數

對於上述的gc的情況，就可以使用以下命令打開heap dump並設置dump路徑。

 jinfo -flag +HeapDumpBeforeFullGC [pid]   jinfo -flag +HeapDumpAfterFullGC [pid]  jinfo -flag HeapDumpPath=/home/dump/dir [pid]

同樣的也可以動態關閉。

 jinfo -flag -HeapDumpBeforeFullGC [pid]   jinfo -flag -HeapDumpAfterFullGC [pid]

其他的參數設置類似。

-verbose:gc 與 -XX:+PrintGCDetails

很多gc推薦設置都同時設置了這兩個參數，其實，只要打開了-XX:+PrintGCDetails，前面的選項也會同時打開，無須重複設置。

-XX:+DisableExplicitGC

這個參數的作用就是使得system.gc變爲空調用，很多推薦設置裏面都是建議開啓的。但是，如果你用到了NIO或者其他使用到堆外內存的情況，使用此選項會造成oom。可以用XX:+ExplicitGCInvokesConcurrent或XX:+ExplicitGCInvokesConcurrentAndUnloadsClasses(配合CMS使用，使得system.gc觸發一次併發gc)代替。

此外，還有一個比較有意思的地方。如果你不設置此選項的話，當你使用了RMI的時候，會週期性地來一次full gc。這個現象是由於分佈式gc造成的，爲RMI服務。具體的可見此鏈接內容中與dgc相關的：http://docs.oracle.com/javase/6/docs/technotes/guides/rmi/sunrmiproperties.html

MaxDirectMemorySize

此參數是設置的堆外內存的上限值。當不設置的時候爲-1，此值爲-Xmx減去一個survivor space的預留大小。

由於遺留原因，作用相同的參數

-Xss 與 -XX:ThreadStackSize
-Xmn 與 -XX:NewSize，此外這裏需要注意的是設置了-Xmn的話，NewRatio就沒作用了。

-XX:MaxTenuringThreshold

使用工具查看此值默認值爲15，但是選擇了CMS的時候，此值會變成4。當此值設置爲0時，所有eden裏的活對象在經歷第一次minor GC的時候就會直接晉升到old gen，survivor space直接就沒用。還有值得注意的一點，當使用並行回收器時，此值是沒有作用的，並行回收器默認是自動調整這些參數以求達到吞吐量最大的。此外，即使是使用CMS等回收器，晉升到老年代的age也不是不變的，當某一age的對象的大小達到年輕代的50%時，這個age會被動態調整爲晉升年齡。

-XX:HeapDumpPath

使用此參數可以指定-XX:+HeapDumpBeforeFullGC、-XX:+HeapDumpAfterFullGC、-XX:+HeapDumpOnOutOfMemoryError觸發heap dump文件的存儲位置。

-XX:+UseAdaptiveSizePolicy

此參數在並行回收器時是默認開啓的，會根據應用運行狀況做自我調整，如MaxTenuringThreshold、survivor區大小等。其中第一次晉升老年代的年齡以InitialTenuringThreshold（默認爲7）開始，後續會自動調整。如果希望跟蹤每次minor GC後新的存活週期的閾值，可在啓動參數上增加：-XX:+PrintTenuringDistribution。如果想要可以配置這些參數，可以關閉此選項，但paralle的性能很難達到最佳。其他垃圾回收期則慎重開啓此開關。

微信公衆號【黃小斜】大廠程序員，互聯網行業新知，終身學習踐行者。關注後回覆「Java」、「Python」、「C++」、「大數據」、「機器學習」、「算法」、「AI」、「Android」、「前端」、「iOS」、「考研」、「BAT」、「校招」、「筆試」、「面試」、「面經」、「計算機基礎」、「LeetCode」等關鍵字可以獲取對應的免費學習資料。

深入理解JVM虛擬機10：JVM常用參數以及調優實踐