高效遍歷Java容器

通過本文,你可以更深入的學習 Java 語言中 forEach 語法的知識,以及它和 C 語言形式的 for 循環、 Steam API 的對比。
簡介
Java 程序員經常使用容器,比如 ArrayList 和 HashSet。Java 8 中的 lambda 語法和 steaming API 可以讓我們更方便的使用容器。大部分情況下,我們僅僅處理幾千個元素,也不會去考慮性能問題。但是,在一些極端場景下,如果我們需要遍歷上百萬個元素,性能問題就凸顯出來了。
本文將採用 JMH 計算每塊代碼的運行時間。
forEach vs. C Style vs. Stream API
遍歷是一個基本的功能。所有編程語言都提供了簡單的語法,讓程序員去遍歷容器。Steam API 以一種非常直接的形式來遍歷容器。
public List<Integer> streamSingleThread(BenchMarkState state){
List<Integer> result = new ArrayList<>(state.testData.size());
state.testData.stream().forEach(item -> {
result.add(item);
});
return result;
}
public List<Integer> streamMultiThread(BenchMarkState state){
List<Integer> result = new ArrayList<>(state.testData.size());
state.testData.stream().parallel().forEach(item -> {
result.add(item);
});
return result;
}
forEach 循環也很簡單:
public List<Integer> forEach(BenchMarkState state){
List<Integer> result = new ArrayList<>(state.testData.size());
for(Integer item : state.testData){
result.add(item);
}
return result;
}
C 語言形式的 for 循環囉嗦一些,不過依然很緊湊:
public List<Integer> forCStyle(BenchMarkState state){
int size = state.testData.size();
List<Integer> result = new ArrayList<>(size);
for(int j = 0; j < size; j ++){
result.add(state.testData.get(j));
}
return result;
}
以下是性能報告:
Benchmark Mode Cnt Score Error Units
TestLoopPerformance.forCStyle avgt 200 18.068 ± 0.074 ms/op
TestLoopPerformance.forEach avgt 200 30.566 ± 0.165 ms/op
TestLoopPerformance.streamMultiThread avgt 200 79.433 ± 0.747 ms/op
TestLoopPerformance.streamSingleThread avgt 200 37.779 ± 0.485 ms/op
使用 C 語言形式的 for 循環,JVM 每次僅僅增加一個數字,然後直接從內存裏讀出數據。這使得它非常迅速。但是 forEach 就大不一樣,JVM 需要把 forEach 轉換成一個 iterator,然後每個元素都調用一次 hasNext() 方法。這就是 forEach 比 C 語言的形式慢一些的原因。
哪一個是遍歷 Set 最高效的方法呢?br/>我們先定義測試數據集:
@State(Scope.Benchmark)
public static class BenchMarkState {
br/>@Setup(Level.Trial)
public void doSetup() {
for(int i = 0; i < 500000; i++){
br/>testData.add(Integer.valueOf(i));
}
}
@TearDown(Level.Trial)
public void doTearDown() {
testData = new HashSet<>(500000);
}
public Set<Integer> testData = new HashSet<>(500000);
}
Java 中的 Set 也支持 Steam API 和 forEach 循環。參考之前的測試,如果我們把 Set 轉換成 ArrayList,然後遍歷 ArrayList,或許性能會好一些?
public List<Integer> forCStyle(BenchMarkState state){
int size = state.testData.size();
List<Integer> result = new ArrayList<>(size);
Integer[] temp = (Integer[]) state.testData.toArray(new Integer[size]);
for(int j = 0; j < size; j ++){
result.add(temp[j]);
}
return result;
}
如果把 iterator 和 C 語言形式結合起來呢?
public List<Integer> forCStyleWithIteration(BenchMarkState state){
int size = state.testData.size();
List<Integer> result = new ArrayList<>(size);
Iterator<Integer> iteration = state.testData.iterator();
for(int j = 0; j < size; j ++){
result.add(iteration.next());
}
return result;
}
或者,簡單的遍歷怎麼樣?
public List<Integer> forEach(BenchMarkState state){
List<Integer> result = new ArrayList<>(state.testData.size());
for(Integer item : state.testData) {
result.add(item);
}
return result;
}
這個主意不錯,不過它的效率也不高,因爲初始化一個新的 ArrayList 同樣需要消耗資源。
Benchmark Mode Cnt Score Error Units
TestLoopPerformance.forCStyle avgt 200 6.013 ± 0.108 ms/op
TestLoopPerformance.forCStyleWithIteration avgt 200 4.281 ± 0.049 ms/op
TestLoopPerformance.forEach avgt 200 4.498 ± 0.026 ms/op
HashMap (使用 HashMap<E,Object> 的 HashSet) 不是爲遍歷所有元素設計的。遍歷一個 HashMap 最快的方法是把 Iterator 和 C 語言形式結合起來,這樣 JVM 就不會去調用 hasNext()。
結論
Foreach 和 Steam API 用來處理集合是很方便的。你可以更快的寫代碼。不過,如果你的系統很穩定,性能是一個主要的考量,你應該考慮一下重寫你的循環。
歡迎學Java和大數據的朋友們加入java架構交流: 855835163
羣內提供免費的架構資料還有:Java工程化、高性能及分佈式、高性能、深入淺出。高架構。性能調優、Spring,MyBatis,Netty源碼分析和大數據等多個知識點高級進階乾貨的免費直播講解 可以進來一起學習交流哦
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章