Java程序優化的一些最佳實踐

作者通過經歷的一個項目實例,介紹Java代碼優化的過程,總結了優化Java程序的一些最佳實踐,分析了進行優化的方法,並解釋了性能提升的原因。作者從多個角度分析導致性能低的原因,並逐個進行優化,最終使得程序的性能得到極大提升,增強了代碼的可讀性、可擴展性。

一、衡量程序的標準
衡量一個程序是否優質,可以從多個角度進行分析。其中,最常見的衡量標準是程序的時間複雜度、空間複雜度,以及代碼的可讀性、可擴展性。針對程序的時間複雜度和空間複雜度,想要優化程序代碼,需要對數據結構與算法有深入的理解,並且熟悉計算機系統的基本概念和原理;而針對代碼的可讀性和可擴展性,想要優化程序代碼,需要深入理解軟件架構設計,熟知並會應用合適的設計模式。 

  • 首先,如今計算機系統的存儲空間已經足夠大了,達到了 TB 級別,因此相比於空間複雜度,時間複雜度是程序員首要考慮的因素。爲了追求高性能,在某些頻繁操作執行時,甚至可以考慮用空間換取時間。
  • 其次,由於受到處理器製造工藝的物理限制、成本限制,CPU主頻的增長遇到了瓶頸,摩爾定律已漸漸失效,每隔18個月CPU主頻即翻倍的時代已經過去了,程序員的編程方式發生了徹底的改變。在目前這個多核多處理器的時代,涌現了原生支持多線程的語言(如Java)以及分佈式並行計算框架(如Hadoop)。爲了使程序充分地利用多核CPU,簡單地實現一個單線程的程序是遠遠不夠的,程序員需要能夠編寫出併發或者並行的多線程程序。
  • 最後,大型軟件系統的代碼行數達到了百萬級,如果沒有一個設計良好的軟件架構,想在已有代碼的基礎上進行開發,開發代價和維護成本是無法想象的。一個設計良好的軟件應該具有可讀性和可擴展性,遵循“開閉原則”、“依賴倒置原則”、“面向接口編程”等。
二、項目介紹

本文將介紹筆者經歷的一個項目中的一部分,通過這個實例剖析代碼優化的過程。下面簡要地介紹該系統的相關部分。

該系統的開發語言爲Java,部署在共擁有4核CPU的Linux服務器上,相關部分主要有以下操作:通過某外部系統D提供的REST API獲取信息,從中提取出有效的信息,並通過JDBC 存儲到某數據庫系統S中,供系統其他部分使用,上述操作的執行頻率爲每天一次,一般在午夜當系統空閒時定時執行。爲了實現高可用性(High Availability),外部系統D部署在兩臺服務器上,因此需要分別從這兩臺服務器上獲取信息並將信息插入數據庫中,有效信息的條數達到了上千條,數據庫插入操作次數則爲有效信息條數的兩倍。

圖 1.系統體系結構圖


爲了快速地實現預期效果,在最初的實現中優先考慮了功能的實現,而未考慮系統性能和代碼可讀性等。系統大致有以下的實現: 
  1. REST API獲取信息、數據庫操作可能拋出的異常信息都被記錄到日誌文件中,作爲調試用;
  2. 共有5次數據庫連接操作,包括第一次清空數據庫表,針對兩個外部系統D各有兩次數據庫插入操作,這5個連接都是獨立的,用完之後即釋放;
  3. 所有的數據庫插入語句都是使用java.sql.Statement類生成的;
  4. 所有的數據庫插入語句,都是單條執行的,即生成一條執行一條;
  5. 整個過程都是在單個線程中執行的,包括數據庫表清空操作,數據庫插入操作,釋放數據庫連接;
  6. 數據庫插入操作的JDBC代碼散佈在代碼中。雖然這個版本的系統可以正常運行,達到了預期的效果,但是效率很低,從通過 REST API獲取信息,到解析並提取有效信息,再到數據庫插入操作,總共耗時100秒左右。而預期的時間應該在一分鐘以內,這顯然是不符合要求的。
三、代碼優化過程 

筆者開始分析整個過程有哪些耗時操作,以及如何提升效率,縮短程序執行的時間。通過REST API獲取信息,因爲是使用外部系統提供的API,所以無法在此處提升效率;取得信息之後解析出有效部分,因爲是對特定格式的信息進行解析,所以也無效率提升的空間。所以,效率可以大幅度提升的空間在數據庫操作部分以及程序控制部分。下面,分條敘述對耗時操作的改進方法。

1.  針對日誌記錄的優化

關閉日誌記錄,或者更改日誌輸出級別。因爲從兩臺服務器的外部系統D上獲取到的信息是相同的,所以數據庫插入操作會拋出異常,異常信息類似於“Attempt to insert duplicate record”,這樣的異常信息跟有效信息的條數相等,有上千條。這種情況是能預料到的,所以可以考慮關閉日誌記錄,或者不關閉日誌記錄而是更改日誌輸出 級別,只記錄嚴重級別(severe level)的錯誤信息,並將此類操作的日誌級別調整爲警告級別(warning level),這樣就不會記錄以上異常信息了。本項目使用的是 Java 自帶的日誌記錄類,以下配置文件將日誌輸出級別設置爲嚴重級別。 

清單 1. log.properties 設置日誌輸出級別的片段 

1
2
3
4
5
default file output is in user ’ s home directory.
levels can be: SEVERE, WARNING, INFO, FINE, FINER, FINEST
 java.util.logging.ConsoleHandler.level=SEVERE
 java.util.logging.FileHandler.formatter=java.util.logging.SimpleFormatter
 java.util.logging.FileHandler.append=true

通過上述的優化之後,性能有了大幅度的提升,從原來的 100 秒左右降到了 50 秒左右。爲什麼僅僅不記錄日誌就能有如此大幅度的性能提升呢?查閱資料,發現已經有人做了相關的研究與實驗。經常聽到 Java 程序比 C/C++ 程序慢的言論,但是運行速度慢的真正原因是什麼,估計很多人並不清楚。對於 CPU 密集型的程序(即程序中包含大量計算),Java 程序可以達到 C/C++ 程序同等級別的速度,但是對於 I/O 密集型的程序(即程序中包含大量 I/O 操作),Java 程序的速度就遠遠慢於 C/C++ 程序了,很大程度上是因爲 C/C++ 程序能直接訪問底層的存儲設備。因此,不記錄日誌而得到大幅度性能提升的原因是,Java 程序的 I/O 操作較慢,是一個很耗時的操作。 

2.  針對數據庫連接的優化 

共享數據庫連接。
共有 5 次數據庫連接操作,每次都需重新建立數據庫連接,數據庫插入操作完成之後又立即釋放了,數據庫連接沒有被複用。爲了做到共享數據庫連接,可以通過單例模式 (Singleton Pattern)獲得一個相同的數據庫連接,每次數據庫連接操作都共享這個數據庫連接。這裏沒有使用數據庫連接池(Database Connection Pool)是因爲在程序只有少量的數據庫連接操作,只有在大量併發數據庫連接的時候才需要連接池。 

清單 2. 共享數據庫連接的代碼片段 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
public class JdbcUtil {
 private static Connection con;
 // 從配置文件讀取連接數據庫的信息
 private static String driverClassName;
 private static String url;
 private static String username;
 private static String password;
 private static String currentSchema;
 private static Properties properties = new Properties();
 static {
 // driverClassName, url, username, password, currentSchema 等從配置文件讀取,代碼略去
 try {
 Class.forName(driverClassName);
 catch (ClassNotFoundException e) {
 e.printStackTrace();
 }
 properties.setProperty("user", username);
 properties.setProperty("password", password);
 properties.setProperty("currentSchema", currentSchema);
 try {
 con = DriverManager.getConnection(url, properties);
 catch (SQLException e) {
 e.printStackTrace();
 }
 }
 private JdbcUtil() {}
 // 獲得一個單例的、共享的數據庫連接
 public static Connection getConnection() {
 return con;
 }
 public static void close() throws SQLException {
 if (con != null)
 con.close();
 }
 }

通過上述的優化之後,性能有了小幅度的提升,從 50 秒左右降到了 40 秒左右。共享數據庫連接而得到的性能提升的原因是,數據庫連接是一個耗時耗資源的操作,需要同遠程計算機進行網絡通信,建立 TCP 連接,還需要維護連接狀態表,建立數據緩衝區。如果共享數據庫連接,則只需要進行一次數據庫連接操作,省去了多次重新建立數據庫連接的時間。 

3.  針對插入數據庫記錄的優化 - 1 

使用預編譯 SQL。
具體做法是使用 java.sql.PreparedStatement 代替 java.sql.Statement 生成 SQL 語句。PreparedStatement 使得數據庫預先編譯好 SQL 語句,可以傳入參數。而 Statement 生成的 SQL 語句在每次提交時,數據庫都需進行編譯。在執行大量類似的 SQL 語句時,可以使用 PreparedStatement 提高執行效率。使用 PreparedStatement 的另一個好處是不需要拼接 SQL 語句,代碼的可讀性更強。通過上述的優化之後,性能有了小幅度的提升,從 40 秒左右降到了 30~35 秒左右。 

清單 3. 使用 Statement 的代碼片段 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
// 需要拼接 SQL 語句,執行效率不高,代碼可讀性不強
StringBuilder sql = new StringBuilder();
sql.append("insert into table1(column1,column2) values('");
sql.append(column1Value);
sql.append("','");
sql.append(column2Value);
sql.append("');");
Statement st;
try {
 st = con.createStatement();
 st.executeUpdate(sql.toString());
catch (SQLException e) {
 e.printStackTrace();
}

清單 4. 使用 PreparedStatement 的代碼片段 

1
2
3
4
5
6
// 預編譯 SQL 語句,執行效率高,可讀性強
String sql = “insert into table1(column1,column2) values(?,?)”;
PreparedStatement pst = con.prepareStatement(sql);
pst.setString(1,column1Value);
pst.setString(2,column2Value);
pst.execute();

4.  針對插入數據庫記錄的優化 - 2 

使用 SQL 批處理。通過 java.sql.PreparedStatement 的 addBatch 方法將 SQL 語句加入到批處理,這樣在調用 execute 方法時,就會一次性地執行 SQL 批處理,而不是逐條執行。通過上述的優化之後,性能有了小幅度的提升,從 30~35 秒左右降到了 30 秒左右。 

5.  針對多線程的優化 

使用多線程實現併發 / 並行。
清空數據庫表的操作、把從 2 個外部系統 D 取得的數據插入數據庫記錄的操作,是相互獨立的任務,可以給每個任務分配一個線程執行。清空數據庫表的操作應該先於數據庫插入操作完成,可以通過 java.lang.Thread 類的 join 方法控制線程執行的先後次序。在單核 CPU 時代,操作系統中某一時刻只有一個線程在運行,通過進程 / 線程調度,給每個線程分配一小段執行的時間片,可以實現多個進程 / 線程的併發(concurrent)執行。而在目前的多核多處理器背景下,操作系統中同一時刻可以有多個線程並行(parallel)執行,大大地提高了 計算速度。 

清單 5. 使用多線程的代碼片段 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Thread t0 = new Thread(new ClearTableTask());
Thread t1 = new Thread(new StoreServersTask(ADDRESS1));
Thread t2 = new Thread(new StoreServersTask(ADDRESS2));
try {
 t0.start();
 // 執行完清空操作後,再進行後續操作
 t0.join();
 t1.start();
 t2.start();
 t1.join();
 t2.join();
catch (InterruptedException e) {
 e.printStackTrace();
}
// 斷開數據庫連接
try {
 JdbcUtil.close();
catch (SQLException e) {
 e.printStackTrace();
}

通過上述的優化之後,性能有了大幅度的提升,從 30 秒左右降到了 15 秒以下,10~15 秒之間。使用多線程而得到的性能提升的原因是,系統部署所在的服務器是多核多處理器的,使用多線程,給每個任務分配一個線程執行,可以充分地利用 CPU 計算資源。 

筆者試着給每個任務分配兩個線程執行,希望能使程序運行得更快,但是事與願違,此時程序運行的時間反而比每個任務分配一個線程執行的慢,大約 20 秒。筆者推測,這是因爲線程較多(相對於 CPU 的內核數),使得 CPU 忙於線程的上下文切換,過多的線程上下文切換使得程序的性能反而不如之前。因此,要根據實際的硬件環境,給任務分配適量的線程執行。 

6.  針對設計模式的優化 

使用 DAO 模式抽象出數據訪問層。
原來的代碼中混雜着 JDBC 操作數據庫的代碼,代碼結構顯得十分凌亂。使用 DAO 模式(Data Access Object Pattern)可以抽象出數據訪問層,這樣使得程序可以獨立於不同的數據庫,即便訪問數據庫的代碼發生了改變,上層調用數據訪問的代碼無需改變。並且程 序員可以擺脫單調繁瑣的數據庫代碼的編寫,專注於業務邏輯層面的代碼的開發。通過上述的優化之後,性能並未有提升,但是代碼的可讀性、可擴展性大大地提高 了。 

清單 6. 使用 DAO 模式的代碼片段 

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
// DeviceDAO.java,定義了 DAO 抽象,上層的業務邏輯代碼引用該接口,面向接口編程
public interface DeviceDAO {
   public void add(Device device);
}
 
// DeviceDAOImpl.java,DAO 實現,具體的 SQL 語句和數據庫操作由該類實現
public class DeviceDAOImpl implements DeviceDAO {
   private Connection con;
   public DeviceDAOImpl() {
       // 獲得數據庫連接,代碼略去
   }
@Override
public void add(Device device) {
       // 使用 PreparedStatement 進行數據庫插入記錄操作,代碼略去
   }
}

回顧以上代碼優化過程:關閉日誌記錄、共享數據庫連接、使用預編譯 SQL、使用 SQL 批處理、使用多線程實現併發 / 並行、使用 DAO 模式抽象出數據訪問層,程序運行時間從最初的 100 秒左右降低到 15 秒以下,在性能上得到了很大的提升,同時也具有了更好的可讀性和可擴展性。 

四、結束語 

通過該項目實例,筆者深深地感到,想要寫出一個性能優化、可讀性可擴展性強的程序,需要對計算機系統的基本概念、原理,編程語言的特性,軟件系統 架構設計都有較深入的理解。“紙上得來終覺淺,絕知此事要躬行”,想要將這些基本理論、編程技巧融會貫通,還需要不斷地實踐,並總結心得體會。 

發佈了5 篇原創文章 · 獲贊 0 · 訪問量 1萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章