如何制定Java性能調優標準?

想讓你的程序更快更穩,但是系統經常出各種bug,無從下手?Java性能調優全攻略來啦!

我有一個朋友,有一次他跟我說,他們公司的系統從來沒有經過性能調優,功能測試完成後就上線了,線上也沒有出現過什麼性能問題呀,那爲什麼很多系統都要去做性能調優呢?
當時我就回答了他一句,如果你們公司做的是 12306 網站,不做系統性能優化就上線,試試看會是什麼情況。
如果是你,你會怎麼回答呢?今天,我們就從這個話題聊起,希望能跟你一起弄明白這幾個問題:我們爲什麼要做性能調優?什麼時候開始做?做性能調優是不是有標準可參考?

爲什麼要做性能調優

一款線上產品如果沒有經過性能測試,那它就好比是一顆定時炸彈,你不知道它什麼時候會出現問題,你也不清楚它能承受的極限在哪兒。有些性能問題是時間累積慢慢產生的,到了一定時間自然就爆炸了;而更多的性能問題是由訪問量的波動導致的,例如,活動或者公司產品用戶量上升;當然也有可能是一款產品上線後就半死不活,一直沒有大訪問量,所以還沒有引發這顆定時炸彈。
現在假設你的系統要做一次活動,產品經理或者老闆告訴你預計有幾十萬的用戶訪問量,詢問系統能否承受得住這次活動的壓力。如果你不清楚自己系統的性能情況,也只能戰戰兢兢地回答老闆,有可能大概沒問題吧。
所以,要不要做性能調優,這個問題其實很好回答。所有的系統在開發完之後,多多少少都會有性能問題,我們首先要做的就是想辦法把問題暴露出來,例如進行壓力測試、模擬可能的操作場景等等,再通過性能調優去解決這些問題。
比如,當你在用某一款 App 查詢某一條信息時,需要等待十幾秒鐘;在搶購活動中,無法進入活動頁面等等。你看,系統響應就是體現系統性能最直接的一個參考因素。
那如果系統在線上沒有出現響應問題,我們是不是就不用去做性能優化了呢?再給你講一個故事吧。
曾經我的前前東家系統研發部門來了一位大神,爲什麼叫他大神,因爲在他來公司的一年時間裏,他只做了一件事情,就是把服務器的數量縮減到了原來的一半,系統的性能指標,反而還提升了。
好的系統性能調優不僅僅可以提高系統的性能,還能爲公司節省資源。這也是我們做性能調優的最直接的目的。

什麼時候開始介入調優?

解決了爲什麼要做性能優化的問題,那麼新的問題就來了:如果需要對系統做一次全面的性能監測和優化,我們從什麼時候開始介入性能調優呢?是不是越早介入越好?
其實,在項目開發的初期,我們沒有必要過於在意性能優化,這樣反而會讓我們疲於性能優化,不僅不會給系統性能帶來提升,還會影響到開發進度,甚至獲得相反的效果,給系統帶來新的問題。
我們只需要在代碼層面保證有效的編碼,比如,減少磁盤 I/O 操作、降低競爭鎖的使用以及使用高效的算法等等。遇到比較複雜的業務,我們可以充分利用設計模式來優化業務代碼。例如,設計商品價格的時候,往往會有很多折扣活動、紅包活動,我們可以用裝飾模式去設計這個業務。
在系統編碼完成之後,我們就可以對系統進行性能測試了。這時候,產品經理一般會提供線上預期數據,我們在提供的參考平臺上進行壓測,通過性能分析、統計工具來統計各項性能指標,看是否在預期範圍之內。
在項目成功上線後,我們還需要根據線上的實際情況,依照日誌監控以及性能統計日誌,來觀測系統性能問題,一旦發現問題,就要對日誌進行分析並及時修復問題。

有哪些參考因素可以體現系統的性能?

上面我們講到了在項目研發的各個階段性能調優是如何介入的,其中多次講到了性能指標,那麼性能指標到底有哪些呢?

在我們瞭解性能指標之前,我們先來了解下哪些計算機資源會成爲系統的性能瓶頸。

CPU:有的應用需要大量計算,他們會長時間、不間斷地佔用 CPU 資源,導致其他資源無法爭奪到 CPU 而響應緩慢,從而帶來系統性能問題。例如,代碼遞歸導致的無限循環,正則表達式引起的回溯,JVM頻繁的 FULL GC,以及多線程編程造成的大量上下文切換等,這些都有可能導致 CPU 資源繁忙。

內存:Java 程序一般通過 JVM 對內存進行分配管理,主要是用 JVM 中的堆內存來存儲 Java 創建的對象。系統堆內存的讀寫速度非常快,所以基本不存在讀寫性能瓶頸。但是由於內存成本要比磁盤高,相比磁盤,內存的存儲空間又非常有限。所以當內存空間被佔滿,對象無法回收時,就會導致內存溢出、內存泄露等問題。

磁盤I/O:磁盤相比內存來說,存儲空間要大很多,但磁盤 I/O 讀寫的速度要比內存慢,雖然目前引入的 SSD 固態硬盤已經有所優化,但仍然無法與內存的讀寫速度相提並論。網絡:網絡對於系統性能來說,也起着至關重要的作用。如果你購買過雲服務,一定經歷過,選擇網絡帶寬大小這一環節。帶寬過低的話,對於傳輸數據比較大,或者是併發量比較大的系統,網絡就很容易成爲性能瓶頸。

異常:Java 應用中,拋出異常需要構建異常棧,對異常進行捕獲和處理,這個過程非常消耗系統性能。如果在高併發的情況下引發異常,持續地進行異常處理,那麼系統的性能就會明顯地受到影響。

數據庫:大部分系統都會用到數據庫,而數據庫的操作往往是涉及到磁盤 I/O 的讀寫。大量的數據庫讀寫操作,會導致磁盤 I/O 性能瓶頸,進而導致數據庫操作的延遲性。對於有大量數據庫讀寫操作的系統來說,數據庫的性能優化是整個系統的核心。

鎖競爭:在併發編程中,我們經常會需要多個線程,共享讀寫操作同一個資源,這個時候爲了保持數據的原子性(即保證這個共享資源在一個線程寫的時候,不被另一個線程修改),我們就會用到鎖。鎖的使用可能會帶來上下文切換,從而給系統帶來性能開銷。JDK1.6 之後,Java 爲了降低鎖競爭帶來的上下文切換,對 JVM 內部鎖已經做了多次優化,例如,新增了偏向鎖、自旋鎖、輕量級鎖、鎖粗化、鎖消除等。而如何合理地使用鎖資源,優化鎖資源,就需要你瞭解更多的操作系統知識、Java 多線程編程基礎,積累項目經驗,並結合實際場景去處理相關問題。

瞭解了上面這些基本內容,我們可以得到下面幾個指標,來衡量一般系統的性能。

1、響應時間
響應時間是衡量系統性能的重要指標之一,響應時間越短,性能越好,一般一個接口的響應時間是在毫秒級。在系統中,我們可以把響應時間自下而上細分爲以下幾種:

數據庫響應時間:數據庫操作所消耗的時間,往往是整個請求鏈中最耗時的;
服務端響應時間:服務端包括 Nginx 分發的請求所消耗的時間以及服務端程序執行所消耗的時間;
網絡響應時間:這是網絡傳輸時,網絡硬件需要對傳輸的請求進行解析等操作所消耗的時間;
客戶端響應時間:對於普通的 Web、App 客戶端來說,消耗時間是可以忽略不計的,但如果你的客戶端嵌入了大量的邏輯處理,消耗的時間就有可能變長,從而成爲系統的瓶頸。

2、吞吐量
在測試中,我們往往會比較注重系統接口的 TPS(每秒事務處理量),因爲 TPS 體現了接口的性能,TPS 越大,性能越好。在系統中,我們也可以把吞吐量自下而上地分爲兩種:磁盤吞吐量和網絡吞吐量。我們先來看磁盤吞吐量,磁盤性能有兩個關鍵衡量指標。

接下來看網絡吞吐量,這個是指網絡傳輸時沒有幀丟失的情況下,設備能夠接受的最大數據速率。網絡吞吐量不僅僅跟帶寬有關係,還跟 CPU 的處理能力、網卡、防火牆、外部接口以及 I/O 等等緊密關聯。而吞吐量的大小主要由網卡的處理能力、內部程序算法以及帶寬大小決定。

3、計算機資源分配使用率
通常由 CPU 佔用率、內存使用率、磁盤 I/O、網絡 I/O 來表示資源使用率。這幾個參數好比一個木桶,如果其中任何一塊木板出現短板,任何一項分配不合理,對整個系統性能的影響都是毀滅性的。

4、負載承受能力
當系統壓力上升時,你可以觀察,系統響應時間的上升曲線是否平緩。這項指標能直觀地反饋給你,系統所能承受的負載壓力極限。例如,當你對系統進行壓測時,系統的響應時間會隨着系統併發數的增加而延長,直到系統無法處理這麼多請求,拋出大量錯誤時,就到了極限。

總結

通過今天的學習,我們知道性能調優可以使系統穩定,用戶體驗更佳,甚至在比較大的系統中,還能幫公司節約資源。

但是在項目的開始階段,我們沒有必要過早地介入性能優化,只需在編碼的時候保證其優秀、高效,以及良好的程序設計。

在完成項目後,我們就可以進行系統測試了,我們可以將以下性能指標,作爲性能調優的標準,響應時間、吞吐量、計算機資源分配使用率、負載承受能力。

回顧我自己的項目經驗,有電商系統、支付系統以及遊戲充值計費系統,用戶級都是千萬級別,且要承受各種大型搶購活動,所以我對系統的性能要求非常苛刻。除了通過觀察以上指標來確定系統性能的好壞,還需要在更新迭代中,充分保障系統的穩定性。

這裏,給你延伸一個方法,就是將迭代之前版本的系統性能指標作爲參考標準,通過自動化性能測試,校驗迭代發版之後的系統性能是否出現異常,這裏就不僅僅是比較吞吐量、響應時間、負載能力等直接指標了,還需要比較系統資源的 CPU 佔用率、內存使用率、磁盤 I/O、網絡 I/O 等幾項間接指標的變化。

想系統的學習Java性能調優?可以關注我的專欄《Java 性能調優實戰》,覆蓋80%以上Java應用調優場景,帶你掌握一套學完即用的調優方法論。

作者介紹:

你好,我是劉超,金山軟件西山居技術經理,我一直處於性能調優的一線,是《Java 性能調優實戰》這門課的作者。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章