【Java源碼分析】LinkedHashSet和HashSet源碼分析

類的定義

public class HashSet<E>
extends AbstractSet<E>
implements Set<E>, Cloneable, java.io.Serializable{}

是AbstractSet的子類,實現了Set接口和序列化接口以及克隆接口。

  1. 內部實際上是一個HashMap實例。不保證遍歷順序,允許空的元素
  2. 添加 刪除 Contains和size操作都是常數時間複雜度。但是迭代時間複雜度取決於HashSet中元素個數以及HashMap的容量。所以如果迭代性能 要求比較高的時候不要把初始容量設置的過大或者是將裝載因子設置的過小
  3. HashSet不是線程安全的,在多線程環境下需要通過對象鎖來進行同步或者使用Set s = Collections.synchronizedSet(new HashSet(...));在創建的時候包裝爲一個線程安全的類
  4. 使用迭代器進行迭代訪問的時候,如果修改了HashSet的結構,會出現fail-fast現象,也就是拋出ConcurrentModificationException的異常。

主要成員變量

static final long serialVersionUID = -5024744406713321676L;

private transient HashMap<E,Object> map;

// Dummy value to associate with an Object in the backing Map
private static final Object PRESENT = new Object();

一個是用來序列化的ID,一個就是本質上使用的HashMap實現的HashSet,另外一個成員變量有些特殊。由於Set類型是不允許出現重複元素的,而HashSet是用HashMap來實現的,而HashMap是不允許有重複的key。於是將存入HashSet中的實體作爲key,存入一個value就可以保證HashSet中的對象唯一性,這個空的作爲值的對象就是這裏的PRESENT

構造函數

// 1
public HashSet() {
    map = new HashMap<>(); // 默認容量16裝載因子0.75
}

// 2
public HashSet(Collection<? extends E> c) {
    map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
    addAll(c);
}

// 3
public HashSet(int initialCapacity, float loadFactor) {
    map = new HashMap<>(initialCapacity, loadFactor);
}

// 4
public HashSet(int initialCapacity) {
    map = new HashMap<>(initialCapacity);
}

// 5
// Constructs a new, empty linked hash set.  (This package private constructor is only used by LinkedHashSet.)
HashSet(int initialCapacity, float loadFactor, boolean dummy) {
    map = new LinkedHashMap<>(initialCapacity, loadFactor);
}

前面四個構造函數都比較簡單直觀,重點是第五個,該方法是其子類LinkedHashSet的構造方法,而且其內部實現也是HashMap的子類LinkedHashMap

主要成員方法

由於內部實現是一個HashMap,所以HashSet的一些主要操作都是通過HashMap來實現的

public boolean add(E e) {
    return map.put(e, PRESENT)==null;
}

public boolean remove(Object o) {
    return map.remove(o)==PRESENT;
}

比如這裏的添加和刪除,直接使用的是HashMap 的方法。注意在add的時候判斷是否返回空的意義:如果在add的時候該Key已經在HashMap中,那麼就會返回PRESENT,進而add操作就返回false,添加失敗。這也就保證了只能添加不重複的元素。同理,刪除操作中由於HashMap的key是Set中的對象,而value都是一樣的PRESENT,所以刪除時候如果成功,那麼一定會返回PRESENT

克隆操作

public Object clone() {
    try {
        HashSet<E> newSet = (HashSet<E>) super.clone();
        newSet.map = (HashMap<E, Object>) map.clone();
        return newSet;
    } catch (CloneNotSupportedException e) {
        throw new InternalError();
    }
}

該方法返回了當前Set的一個副本,注意僅僅是Set的副本,Set中的元素是沒有被拷貝的也就是這裏做的是一個淺拷貝

序列化和反序列化

private void writeObject(java.io.ObjectOutputStream s)
    throws java.io.IOException {
    // Write out any hidden serialization magic
    s.defaultWriteObject();

    // Write out HashMap capacity and load factor
    s.writeInt(map.capacity());
    s.writeFloat(map.loadFactor());

    // Write out size
    s.writeInt(map.size());

    // Write out all elements in the proper order.
    for (E e : map.keySet())
        s.writeObject(e);
}

private void readObject(java.io.ObjectInputStream s)
    throws java.io.IOException, ClassNotFoundException {
    // Read in any hidden serialization magic
    s.defaultReadObject();

    // Read in HashMap capacity and load factor and create backing HashMap
    int capacity = s.readInt();
    float loadFactor = s.readFloat();
    map = (((HashSet)this) instanceof LinkedHashSet ?
           new LinkedHashMap<E,Object>(capacity, loadFactor) :
           new HashMap<E,Object>(capacity, loadFactor));

    // Read in size
    int size = s.readInt();

    // Read in all elements in the proper order.
    for (int i=0; i<size; i++) {
        E e = (E) s.readObject();
        map.put(e, PRESENT);
    }
}

序列化和反序列化同樣需要注意數據的寫入和讀取順序必須是一致的

Linked源碼分析

前面在看HashSet的源碼的時候,第五個構造函數已經說明如何構建一個LinkedHashSet。其實和LinkedHashMap類似,LinkedHashSet也是在原有的數據基礎上添加了一個雙向鏈表保存對象的順序。不過LinkedHashMap是支持訪問順序和插入順序設置的(按訪問順序進行配置的時候,常被用來實現LRU功能),而LinkedHashSet不支持。

類的定義

public class LinkedHashSet<E>
extends HashSet<E>
implements Set<E>, Cloneable, java.io.Serializable {}

是HashSet的子類,實現的接口和HashSet不同,這裏實現的是Set接口。同樣支持序列化和克隆操作。

  1. 相對於HashSet,LinkedHashSet最大的特點是遍歷順序是可以預測的(和插入順序一致),因爲在HashSet的基礎上添加了一個雙向鏈表,鏈表維持了實體的插入順序(重複插入不影響原有順序)。這種添加雙向鏈表的Set在維持元素順序方面是很有用的
  2. LinkedHashSet提供了Set類的所有方法且允許空的元素,對於add remove contains的操作都時常數時間複雜度,由於需要維護雙向鏈表,所以在性能方面只是比HashSet差一點點。
  3. 影響效率的兩個因素同樣是capacity和loadFractor。不是線程安全的所以多線程環境下需要進行同步或者包裝
  4. 迭代器進行迭代的時候如果出現修改LinkedHashSet結構的行爲,將會出現fail-fast

構造函數

// 1
public LinkedHashSet(int initialCapacity, float loadFactor) {
    super(initialCapacity, loadFactor, true);
}

// 2
public LinkedHashSet(int initialCapacity) {
    super(initialCapacity, .75f, true);
}

// 3
public LinkedHashSet() {
    super(16, .75f, true);
}

// 4
public LinkedHashSet(Collection<? extends E> c) {
    super(Math.max(2*c.size(), 11), .75f, true);
    addAll(c);
}

注意第一個構造函數的第三個參數,該參數的意義可以直接查看LinkedHashMap的源碼。如果該參數爲true,那麼雙向鏈表的順序是按訪問順序排列,如果是false,也就是默認情況下,是按插入順序排列的。

LinkedHashSet的實現很簡單,只有構造函數,主要是因爲具體的實現代碼和父類完全一樣,都實現在了HashSet類中。而且構造函數全部是調用super()的三個參數的構造方法這個方法在上面也列出來了,就是new一個LinkedHashMap,並且第三個參數設置爲true,按訪問順序維護雙向鏈表

HashSet(int initialCapacity, float loadFactor, boolean dummy) {
    map = new LinkedHashMap<>(initialCapacity, loadFactor);
}
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章