原文鏈接 譯文鏈接 譯者:沈義揚,校對:丁一
Guava引入了很多JDK沒有的、但我們發現明顯有用的新集合類型。這些新類型是爲了和JDK集合框架共存,而沒有往JDK集合抽象中硬塞其他概念。作爲一般規則,Guava集合非常精準地遵循了JDK接口契約。
Multiset
統計一個詞在文檔中出現了多少次,傳統的做法是這樣的:
1 |
Map<String,
Integer> counts = new HashMap<String,
Integer>(); |
2 |
for (String
word : words) { |
3 |
Integer
count = counts.get(word); |
7 |
counts.put(word,
count + 1 ); |
這種寫法很笨拙,也容易出錯,並且不支持同時收集多種統計信息,如總詞數。我們可以做的更好。
Guava提供了一個新集合類型 Multiset,它可以多次添加相等的元素。維基百科從數學角度這樣定義Multiset:”集合[set]概念的延伸,它的元素可以重複出現…與集合[set]相同而與元組[tuple]相反的是,Multiset元素的順序是無關緊要的:Multiset
{a, a, b}和{a, b, a}是相等的”。——譯者注:這裏所說的集合[set]是數學上的概念,Multiset繼承自JDK中的Collection接口,而不是Set接口,所以包含重複元素並沒有違反原有的接口契約。
可以用兩種方式看待Multiset:
- 沒有元素順序限制的ArrayList<E>
- Map<E, Integer>,鍵爲元素,值爲計數
Guava的Multiset API也結合考慮了這兩種方式:
當把Multiset看成普通的Collection時,它表現得就像無序的ArrayList:
- add(E)添加單個給定元素
- iterator()返回一個迭代器,包含Multiset的所有元素(包括重複的元素)
- size()返回所有元素的總個數(包括重複的元素)
當把Multiset看作Map<E, Integer>時,它也提供了符合性能期望的查詢操作:
- count(Object)返回給定元素的計數。HashMultiset.count的複雜度爲O(1),TreeMultiset.count的複雜度爲O(log n)。
- entrySet()返回Set<Multiset.Entry<E>>,和Map的entrySet類似。
- elementSet()返回所有不重複元素的Set<E>,和Map的keySet()類似。
- 所有Multiset實現的內存消耗隨着不重複元素的個數線性增長。
值得注意的是,除了極少數情況,Multiset和JDK中原有的Collection接口契約完全一致——具體來說,TreeMultiset在判斷元素是否相等時,與TreeSet一樣用compare,而不是Object.equals。另外特別注意,Multiset.addAll(Collection)可以添加Collection中的所有元素並進行計數,這比用for循環往Map添加元素和計數方便多了。
Multiset不是Map
請注意,Multiset<E>不是Map<E, Integer>,雖然Map可能是某些Multiset實現的一部分。準確來說Multiset是一種Collection類型,並履行了Collection接口相關的契約。關於Multiset和Map的顯著區別還包括:
- Multiset中的元素計數只能是正數。任何元素的計數都不能爲負,也不能是0。elementSet()和entrySet()視圖中也不會有這樣的元素。
- multiset.size()返回集合的大小,等同於所有元素計數的總和。對於不重複元素的個數,應使用elementSet().size()方法。(因此,add(E)把multiset.size()增加1)
- multiset.iterator()會迭代重複元素,因此迭代長度等於multiset.size()。
- Multiset支持直接增加、減少或設置元素的計數。setCount(elem, 0)等同於移除所有elem。
- 對multiset 中沒有的元素,multiset.count(elem)始終返回0。
Multiset的各種實現
Guava提供了多種Multiset的實現,大致對應JDK中Map的各種實現:
SortedMultiset
SortedMultiset是Multiset 接口的變種,它支持高效地獲取指定範圍的子集。比方說,你可以用 latencies.subMultiset(0,BoundType.CLOSED,
100, BoundType.OPEN).size()來統計你的站點中延遲在100毫秒以內的訪問,然後把這個值和latencies.size()相比,以獲取這個延遲水平在總體訪問中的比例。
TreeMultiset實現SortedMultiset接口。在撰寫本文檔時,ImmutableSortedMultiset還在測試和GWT的兼容性。
Multimap
每個有經驗的Java程序員都在某處實現過Map<K, List<V>>或Map<K, Set<V>>,並且要忍受這個結構的笨拙。例如,Map<K, Set<V>>通常用來表示非標定有向圖。Guava的 Multimap可以很容易地把一個鍵映射到多個值。換句話說,Multimap是把鍵映射到任意多個值的一般方式。
可以用兩種方式思考Multimap的概念:”鍵-單個值映射”的集合:
a -> 1 a -> 2 a ->4 b -> 3 c -> 5
或者”鍵-值集合映射”的映射:
a -> [1, 2, 4] b -> 3 c -> 5
一般來說,Multimap接口應該用第一種方式看待,但asMap()視圖返回Map<K, Collection<V>>,讓你可以按另一種方式看待Multimap。重要的是,不會有任何鍵映射到空集合:一個鍵要麼至少到一個值,要麼根本就不在Multimap中。
很少會直接使用Multimap接口,更多時候你會用ListMultimap或SetMultimap接口,它們分別把鍵映射到List或Set。
修改Multimap
Multimap.get(key)以集合形式返回鍵所對應的值視圖,即使沒有任何對應的值,也會返回空集合。ListMultimap.get(key)返回List,SetMultimap.get(key)返回Set。
對值視圖集合進行的修改最終都會反映到底層的Multimap。例如:
1 |
Set<Person>
aliceChildren = childrenMultimap.get(alice); |
3 |
aliceChildren.add(bob); |
4 |
aliceChildren.add(carol); |
其他(更直接地)修改Multimap的方法有:
方法簽名 |
描述 |
等價於 |
put(K,
V) |
添加鍵到單個值的映射 |
multimap.get(key).add(value) |
putAll(K,
Iterable<V>) |
依次添加鍵到多個值的映射 |
Iterables.addAll(multimap.get(key), values) |
remove(K,
V) |
移除鍵到值的映射;如果有這樣的鍵值併成功移除,返回true。 |
multimap.get(key).remove(value) |
removeAll(K) |
清除鍵對應的所有值,返回的集合包含所有之前映射到K的值,但修改這個集合就不會影響Multimap了。 |
multimap.get(key).clear() |
replaceValues(K,
Iterable<V>) |
清除鍵對應的所有值,並重新把key關聯到Iterable中的每個元素。返回的集合包含所有之前映射到K的值。 |
multimap.get(key).clear(); Iterables.addAll(multimap.get(key), values) |
Multimap的視圖
Multimap還支持若干強大的視圖:
- asMap爲Multimap<K,
V>提供Map<K,Collection<V>>形式的視圖。返回的Map支持remove操作,並且會反映到底層的Multimap,但它不支持put或putAll操作。更重要的是,如果你想爲Multimap中沒有的鍵返回null,而不是一個新的、可寫的空集合,你就可以使用asMap().get(key)。(你可以並且應當把asMap.get(key)返回的結果轉化爲適當的集合類型——如SetMultimap.asMap.get(key)的結果轉爲Set,ListMultimap.asMap.get(key)的結果轉爲List——Java類型系統不允許ListMultimap直接爲asMap.get(key)返回List——譯者注:也可以用Multimaps中的asMap靜態方法幫你完成類型轉換)
- entries用Collection<Map.Entry<K,
V>>返回Multimap中所有”鍵-單個值映射”——包括重複鍵。(對SetMultimap,返回的是Set)
- keySet用Set表示Multimap中所有不同的鍵。
- keys用Multiset表示Multimap中的所有鍵,每個鍵重複出現的次數等於它映射的值的個數。可以從這個Multiset中移除元素,但不能做添加操作;移除操作會反映到底層的Multimap。
- values()用一個”扁平”的Collection<V>包含Multimap中的所有值。這有一點類似於Iterables.concat(multimap.asMap().values()),但它直接返回了單個Collection,而不像multimap.asMap().values()那樣是按鍵區分開的Collection。
Multimap不是Map
Multimap<K, V>不是Map<K,Collection<V>>,雖然某些Multimap實現中可能使用了map。它們之間的顯著區別包括:
- Multimap.get(key)總是返回非null、但是可能空的集合。這並不意味着Multimap爲相應的鍵花費內存創建了集合,而只是提供一個集合視圖方便你爲鍵增加映射值——譯者注:如果有這樣的鍵,返回的集合只是包裝了Multimap中已有的集合;如果沒有這樣的鍵,返回的空集合也只是持有Multimap引用的棧對象,讓你可以用來操作底層的Multimap。因此,返回的集合不會佔據太多內存,數據實際上還是存放在Multimap中。
- 如果你更喜歡像Map那樣,爲Multimap中沒有的鍵返回null,請使用asMap()視圖獲取一個Map<K, Collection<V>>。(或者用靜態方法Multimaps.asMap()爲ListMultimap返回一個Map<K,
List<V>>。對於SetMultimap和SortedSetMultimap,也有類似的靜態方法存在)
- 當且僅當有值映射到鍵時,Multimap.containsKey(key)纔會返回true。尤其需要注意的是,如果鍵k之前映射過一個或多個值,但它們都被移除後,Multimap.containsKey(key)會返回false。
- Multimap.entries()返回Multimap中所有”鍵-單個值映射”——包括重複鍵。如果你想要得到所有”鍵-值集合映射”,請使用asMap().entrySet()。
- Multimap.size()返回所有”鍵-單個值映射”的個數,而非不同鍵的個數。要得到不同鍵的個數,請改用Multimap.keySet().size()。
Multimap的各種實現
Multimap提供了多種形式的實現。在大多數要使用Map<K, Collection<V>>的地方,你都可以使用它們:
除了兩個不可變形式的實現,其他所有實現都支持null鍵和null值
*LinkedListMultimap.entries()保留了所有鍵和值的迭代順序。詳情見doc鏈接。
**LinkedHashMultimap保留了映射項的插入順序,包括鍵插入的順序,以及鍵映射的所有值的插入順序。
請注意,並非所有的Multimap都和上面列出的一樣,使用Map<K, Collection<V>>來實現(特別是,一些Multimap實現用了自定義的hashTable,以最小化開銷)
如果你想要更大的定製化,請用Multimaps.newMultimap(Map,
Supplier<Collection>)或list和 set版本,使用自定義的Collection、List或Set實現Multimap。
BiMap
傳統上,實現鍵值對的雙向映射需要維護兩個單獨的map,並保持它們間的同步。但這種方式很容易出錯,而且對於值已經在map中的情況,會變得非常混亂。例如:
1 |
Map<String,
Integer> nameToId = Maps.newHashMap(); |
2 |
Map<Integer,
String> idToName = Maps.newHashMap(); |
4 |
nameToId.put( "Bob" , 42 ); |
5 |
idToName.put( 42 , "Bob" ); |
BiMap<K, V>是特殊的Map:
在BiMap中,如果你想把鍵映射到已經存在的值,會拋出IllegalArgumentException異常。如果對特定值,你想要強制替換它的鍵,請使用 BiMap.forcePut(key,
value)。
1 |
BiMap<String,
Integer> userId = HashBiMap.create(); |
4 |
String
userForId = userId.inverse().get(id); |
BiMap的各種實現
注:Maps類中還有一些諸如synchronizedBiMap的BiMap工具方法.
Table
1 |
Table<Vertex,
Vertex, Double> weightedGraph = HashBasedTable.create(); |
2 |
weightedGraph.put(v1,
v2, 4 ); |
3 |
weightedGraph.put(v1,
v3, 20 ); |
4 |
weightedGraph.put(v2,
v3, 5 ); |
7 |
weightedGraph.column(v3); |
通常來說,當你想使用多個鍵做索引的時候,你可能會用類似Map<FirstName, Map<LastName, Person>>的實現,這種方式很醜陋,使用上也不友好。Guava爲此提供了新集合類型Table,它有兩個支持所有類型的鍵:”行”和”列”。Table提供多種視圖,以便你從各種角度使用它:
Table有如下幾種實現:
- HashBasedTable:本質上用HashMap<R,
HashMap<C, V>>實現;
- TreeBasedTable:本質上用TreeMap<R,
TreeMap<C,V>>實現;
- ImmutableTable:本質上用ImmutableMap<R,
ImmutableMap<C, V>>實現;注:ImmutableTable對稀疏或密集的數據集都有優化。
- ArrayTable:要求在構造時就指定行和列的大小,本質上由一個二維數組實現,以提升訪問速度和密集Table的內存利用率。ArrayTable與其他Table的工作原理有點不同,請參見Javadoc瞭解詳情。
ClassToInstanceMap
ClassToInstanceMap是一種特殊的Map:它的鍵是類型,而值是符合鍵所指類型的對象。
爲了擴展Map接口,ClassToInstanceMap額外聲明瞭兩個方法:T
getInstance(Class<T>) 和T
putInstance(Class<T>, T),從而避免強制類型轉換,同時保證了類型安全。
ClassToInstanceMap有唯一的泛型參數,通常稱爲B,代表Map支持的所有類型的上界。例如:
1 |
ClassToInstanceMap<Number>
numberDefaults=MutableClassToInstanceMap.create(); |
2 |
numberDefaults.putInstance(Integer. class ,
Integer.valueOf( 0 )); |
從技術上講,ClassToInstanceMap<B>實現了Map<Class<? extends B>, B>——或者換句話說,是一個映射B的子類型到對應實例的Map。這讓ClassToInstanceMap包含的泛型聲明有點令人困惑,但請記住B始終是Map所支持類型的上界——通常B就是Object。
對於ClassToInstanceMap,Guava提供了兩種有用的實現:MutableClassToInstanceMap和 ImmutableClassToInstanceMap。
RangeSet
RangeSet描述了一組不相連的、非空的區間。當把一個區間添加到可變的RangeSet時,所有相連的區間會被合併,空區間會被忽略。例如:
1 |
RangeSet<Integer>
rangeSet = TreeRangeSet.create(); |
2 |
rangeSet.add(Range.closed( 1 , 10 )); |
3 |
rangeSet.add(Range.closedOpen( 11 , 15 )); |
4 |
rangeSet.add(Range.closedOpen( 15 , 20 )); |
5 |
rangeSet.add(Range.openClosed( 0 , 0 )); |
6 |
rangeSet.remove(Range.open( 5 , 10 )); |
請注意,要合併Range.closed(1, 10)和Range.closedOpen(11, 15)這樣的區間,你需要首先用Range.canonical(DiscreteDomain)對區間進行預處理,例如DiscreteDomain.integers()。
注:RangeSet不支持GWT,也不支持JDK5和更早版本;因爲,RangeSet需要充分利用JDK6中NavigableMap的特性。
RangeSet的視圖
RangeSet的實現支持非常廣泛的視圖:
- complement():返回RangeSet的補集視圖。complement也是RangeSet類型,包含了不相連的、非空的區間。
- subRangeSet(Range<C>):返回RangeSet與給定Range的交集視圖。這擴展了傳統排序集合中的headSet、subSet和tailSet操作。
- asRanges():用Set<Range<C>>表現RangeSet,這樣可以遍歷其中的Range。
- asSet(DiscreteDomain<C>)(僅ImmutableRangeSet支持):用ImmutableSortedSet<C>表現RangeSet,以區間中所有元素的形式而不是區間本身的形式查看。(這個操作不支持DiscreteDomain 和RangeSet都沒有上邊界,或都沒有下邊界的情況)
RangeSet的查詢方法
爲了方便操作,RangeSet直接提供了若干查詢方法,其中最突出的有:
- contains(C):RangeSet最基本的操作,判斷RangeSet中是否有任何區間包含給定元素。
- rangeContaining(C):返回包含給定元素的區間;若沒有這樣的區間,則返回null。
- encloses(Range<C>):簡單明瞭,判斷RangeSet中是否有任何區間包括給定區間。
- span():返回包括RangeSet中所有區間的最小區間。
RangeMap
RangeMap描述了"不相交的、非空的區間"到特定值的映射。和RangeSet不同,RangeMap不會合並相鄰的映射,即便相鄰的區間映射到相同的值。例如:
1 |
RangeMap<Integer,
String> rangeMap = TreeRangeMap.create(); |
2 |
rangeMap.put(Range.closed( 1 , 10 ), "foo" ); |
3 |
rangeMap.put(Range.open( 3 , 6 ), "bar" ); |
4 |
rangeMap.put(Range.open( 10 , 20 ), "foo" ); |
5 |
rangeMap.remove(Range.closed( 5 , 11 )); |
RangeMap的視圖
RangeMap提供兩個視圖:
- asMapOfRanges():用Map<Range<K>, V>表現RangeMap。這可以用來遍歷RangeMap。
- subRangeMap(Range<K>):用RangeMap類型返回RangeMap與給定Range的交集視圖。這擴展了傳統的headMap、subMap和tailMap操作。
(全文完)如果您喜歡此文請點贊,分享,評論。