Binary Search(二分搜索)

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

二分搜索(binary search),也叫做 折半搜索(half-interval search),對數搜索(logarithmic search),對半搜索(binary chop),是一種在有序數組中查找某一特定元素的搜索算法.

二分搜索有幾個變體.特別是,分散層疊(fractional cascading)(將每個數組裏的值集合成一個數組,元素爲11[0,3,2,0] 的形式,括號內的數字是該值在對應數組中應該返回的數字)提高了在多個數組中查找相同值的效率,高效的解決了一系列計算幾何和其他領域的查找問題).指數查找(Exponential search)延伸了二分查找到一個沒有邊界的 list.binary search treeB-tree是基於 binary search 延伸的.

原理

搜索時從數組中間元素開始,如果中間元素正好是要查找的元素,則搜索過程結束;如果中間元素大於或者小於要查找的元素,則在數組中大於或者小於查找元素的一半中繼續查找,重複這個過程直到找到這個元素,或者這一半的大小爲空時則代表找不到.這樣子每一次比較都使得搜索範圍縮小一半.

步驟

給定一個有序數組 A 是 A0,…,An-1並保證 A0<=…<=An-1,以及目標值 T.

  1. 令 L 爲0,R 爲 n-1.
  2. 如果 L>R 則搜索失敗
  3. 令m(中間值元素索引)爲最大的小於(L+R)/2的整數
  4. 如果 Am<T ,令 L=m+1並回到第2步;
  5. 如果 Am>T ,令 R=m-1並回到第2步;
  6. 當 Am=T,搜索結束;T 所在的索引位置爲m.

變體

  1. 令 L 爲0,R 爲 n-1.
  2. 令 m(中間元素索引) 爲上限,也就是最小的大於(L+R)/2的值.
  3. 如果 Am>T ,設置 R 爲 m-1並且返回第2步
  4. 如果 Am<=T ,設置 L 爲m 並且返回第2步.
  5. 直到 L=R ,搜索完成.這時候如果T=Am,返回 m,否則,搜索失敗.

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

在 Am<=T 的時候,這個變體將 L 設置爲 m 而不是 m+1.這個方式的比較是更快速的,因爲它在每個循環裏省略了一次比較.但是平均就會多出來一次循環.在數組包含重複的元素的時候這個變體總是會返回最右側的元素索引.比如 A 是[1,2,3,4,4,5,6,7]查找的對象是4,那麼這個方法會返回 index 4,而不是 index 3.

大致匹配

由於有序數組的順序性,可以將二分搜索擴展到大致匹配.可以用來計算賦值的排名(或稱秩,比它更小的元素的數量),前趨(下一個最小元素),後繼(下一個最大元素)以及最近鄰.還可以使用兩個排名查詢來執行範圍查詢.

  • 排名查詢可以使用調整後的二分搜索來進行.成功時返回m,失敗時返回 L, 這樣就等於返回了比目標值小的元素數目.
  • 前趨和後繼可以使用排名查詢來進行.當知道目標值的排名,成功時前趨是排名位置的上一個元素,失敗時則是排名位置的元素.它的後繼是排名位置的後一個元素,或是前趨的下一個元素.目標值的最近領可能是前趨或後繼,取決於哪個更接近目標值.
  • 範圍查詢,一旦知道範圍兩邊的值的排名,那麼大於邊界最小值且小於邊界最大值的元素排名就是他們的範圍,是否包含邊界值根據需要處理.

性能分析

時間複雜度
二分查找每次把搜索區域減少一半,時間複雜度爲
O(log2n) O(log_2 n)
(n 是集合中元素的個數)
最差的情況是 遍歷到最後一層,或者是沒有找到該元素的時候,複雜度爲 O(log2n+1)O(\lfloor log_2 n + 1 \rfloor) .

綜合複雜度爲 O(log2n)O(log_2 n)

分散層疊(fractional cascading) 可以提高在多數組中查詢相同值的效率. k 是數組的數量,在每個數組中查詢目標值消耗 O(klogn)O(k log n) 的時間.分散層疊可以將它降低到 O(k+logn)O(k+log n).

變體效率分析
相對於正常的二分搜索,它減少了每次循環的比對次數,但是它必須做完完整的循環,而不會在中間就得到答案.但是在 n 很大的情況下減少了對比次數的提升不能夠抵消多餘的循環的消耗.

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

空間複雜度
O(1).尾遞歸,可以改寫爲循環.

應用

查找數組中的元素,或用於插入排序.

二分搜索和其他的方案對比

使用二分搜索的有序數組在插入和刪除操作效率很低,每個操作消耗 O(n) 的時間.其他的數據結構提供了更高效的插入和刪除,並且提供了同樣高效的完全匹配.然而,二分搜索適用於很多的搜索問題,只消耗 O(logn)O(log n) 的時間.

Hashing

對於關聯數組 (associative arrays),哈希表 (hash tables),他們是通過hash 函數將鍵映射到記錄上的數據結構,通常情況下比在有序數組的情況下使用二分查找要更快.大部分的實現平均開銷都是常量級的.然而, hashing 並不適用於模糊匹配,比如計算前趨,後繼,以及最近的鍵,它在失敗的查詢情況下能給我們的唯一信息就是目標在記錄中不存在.二分查找是這種匹配的理想模式,消耗對數級別的時間.

Trees

二叉搜索樹(binary search tree) 是一個基於二叉搜索原理的二叉樹(binary tree)數據結構.樹的記錄按照順序排列,並且每個樹裏的每個記錄都可以使用類似二叉搜索的方法來搜索,平均耗費對數級的時間.插入和刪除的平均時間也是對數級的.這會比有序數組消耗的線性時間要快,並且二叉樹擁有所有有序數組可以執行的操作,包含範圍和模糊查找.

然而二叉搜索通常情況下比二叉搜索樹的搜索更有效率,因爲二叉搜索樹很可能會完全不平衡,導致性能稍差.這同樣適用於 平衡二叉搜索樹( balanced binary search trees) , 它平衡了它自己的節點稍微向完全平衡樹靠攏.雖然不太可能,但是樹有可能只有少數節點有兩個子節點導致嚴重不平衡,這種情況下平均時間損耗和最差的情況差不多都是 O(n) .二叉搜索樹比有序數組佔用更多的空間.

二叉搜索樹因爲可以高效的在文件系統中結構化,所以他們可以在硬盤中進行快速搜索.B-tree 泛化了這種樹結構的方法.B-tree 常用於組織長時間的存儲比如數據庫(databases)文件系統(filesystems).

Linear search

線性搜索( Linear Search)是一種簡單的搜索算法,它查找每一個記錄直到找到目標值.線性搜索可以在 鏈表(linked list) 上使用,它的插入和刪除會比在數組上要快.二分搜索比線性搜索要快除非數組很短.如果數組必須先被排序,這個消耗必須在搜索中平攤.對數組進行排序還可以進行有效的近似匹配和其他操作.

Set membership algorithms

一個和搜索相關的問題是集合成員(set membership).所有有關查找的算法,比如二分搜索,都可以用於集合成員.還有一些更適用於集合成員的算法,位數組(bit array)是最簡單的一個,在鍵的範圍是有限的時候非常有用.它非常快,是需要O(1)的時間.朱迪矩陣(Judy array)可以高效的處理64位鍵.

對於近似結果,布隆過濾器(Bloom filters)是另外一個基於哈希的概率性數據結構,通過存儲使用bit array 和多重 hash 函數編碼的鍵集合. Bloom filters 在大多數情況下空間效率比bit arrays 要高而不會慢太多:使用了 k 重hash 函數,成員查找只需要 O(k) 的時間.然而, Bloom filters 有一定的誤判性.

其他的數據結構

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

這裏存在一些數據結構在某些情況下比在有序數組上使用二分搜索進行查找或其他的操作更加高效.比如,在van Emde Boas trees, fusion trees, 前綴樹(tries), 和位數組 上進行查找,近似匹配,以及其他可用的操作可以比在有序數組上進行二分搜索更加的高效.然而,儘管這些操作可以比在無視鍵的情況下比有序數組上使用更高效,這樣的數據結構通常是因爲利用了某些鍵的屬性(鍵通常是一些小整數),因此如果鍵缺乏那些屬性將會消耗更多的空間或時間.一些結構如朱迪矩陣,使用了多種方式的組合來保證效率和執行近似匹配的能力.

變體

Uniform binary search

Uniform binary search 不是存儲下限和上限的邊界值,而是中間元素的索引,和從這次循環的中間元素到下次循環的中間元素的變化.每一步的變化減少一半.比如,要搜索的數組是[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11],中間元素是6.Uniform binary search 同時對左邊和右邊的子數組進行操作.在這個情況下,左邊的子數組([1, 2, 3, 4, 5]) 的中間元素 3 而右邊的子數組 ([7, 8, 9, 10, 11]) 的中間元素是 9.然後存儲3 作爲兩個中間元素和 6 的差別.爲了減少搜索的空間使用,算法同時加上或減去這個和中間元素的改變.這個算法的好處是可以將每次循環的索引的差別存儲到一個表裏,在某些系統裏可以提高算法的性能.

Exponential search

指數查找(Exponential Search)將二分搜索拓展到無邊界數組.它最開始尋找第一個索引是2的冪次方並且要比目標值大的元素的索引.然後,它將這個元素索引設置爲上邊界,然後開始二分搜索.指數查找消耗 log2x=1\lfloor log_2 x =1 \rfloor 次循環 ,然後二分搜索消耗 log2x\lfloor log_2 x \rfloor 次循環, x 是目標值的位置.指數查找適用於有界列表,在目標值接近數組開始的位置的時候比二分查找性能有所提高.
轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

Interpolation search

內插搜索(Interpolation search)忽略了目標值的位置,計算數組的最低和最高元素的距離即數組的長度.這只有在數組元素是數字的時候才能使用.它適用於中間值不是最好的猜測選擇的情況.比如,如果目標值接近數組的最高元素,最好是定位在數組的末端.如果數組的分佈是均勻的或者接近均勻的,它消耗 O(loglogn)O(log log n) 次比較.

實際上,內插搜索在數組元素較少的情況下是比二分搜索更慢的,因爲內插搜索需要額外的計算.儘管它的時間複雜度增長是小於二分搜索的,只有在在大數組的情況下這個計算的損耗可以被彌補.

Fractional cascading

分散層疊(Fractional cascading) 可以提高在多個有序數組裏查找相同的元素或近似匹配的效率,分別在每個數組裏查找總共需要 O(klogn)O(klogn)的時間, k 是數組的數量.分散層疊通過將每個數組的信息按指定的方式存儲起來將這個時間降低到 O(k+logn)O(k+logn) .

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

它將每個數組裏的值集合成一個數組,元素爲 11[0,3,2,0] 的形式,括號內的數字是該值在對應數組中應該返回的數字)提高了在多個數組中查找相同值的效率,高效的解決了一系列計算幾何和其他領域的查找問題

分散層疊被髮明的時候是爲了高效的解決各種計算幾何學(computational geometry) 問題,但是它同樣適用於其他地方,例如 數據挖掘(data mining)互聯網協議(Internet Protocal) 等.

實現時的問題

要注意中間值的取值方法,如果使用 (L+R)/2 當數組的元素數量很大的時候回造成計算溢出.所以要使用L+(R-L)/2.

示例

C 版本- 遞歸

int binary_search(const int arr[], int start , int end , int khey){
    if (start > end)
      return -1;

    int mid = start +(end - start)/2;   //直接平均可能會溢位,所以用此算法
    if (arr[mid] > khey)
        return binary_search(arr , start , mid - 1 , khey);
    else if (arr[mid] < khey)
        return binary_search(arr , mid + 1 , end , khey);
    else
        return mid;    //最後才檢測相等的情況是因爲大多數搜尋情況不是大於就是小於

}

C 版本- while 循環

int binary_search(const int arr[], int start, int end, int khey){
    int result = -1;    //如果沒有搜索到數據返回 -1

    int mid;
    while (start <= end){
      mid = start + (end - start)/2 ;    //直接平均可能會溢位,所以用此算法
      if (arr[mid] > khey)
          end = mid-1;
      else if (arr[mid] < khey)
          start = mid + 1;
      else{    //最後才檢測相等的情況是因爲大多數搜尋情況不是大於就是小於
          result = mid;
          break;
      }
    }

    return result;

}

Python3 遞歸

def binary_search(arr, start, end, hkey):
    if start > end:
        return -1

    mid = start + (end - start) / 2
    if arr[mid] > hkey:
        return binary_search(arr, start , mid - 1,hkey)
    if arr[mid] < hkey:
        return binary_search(arr, mid + 1, end, hkey)
    return mid

Python3 while 循環

def binary_search(arr, start, end, hkey):
    result = -1

    while start <= end:
        mid = start + (end - start) / 2
        if arr[mid] > hkey :
            end = mid - 1
        elif arr[mid] < hkey :
            start = mid + 1
        else :
            result = mid
            break

    return result

Java 遞歸

public static int binarySearch(int[] arr, int start, int end, int hkey){
    if (start > end)
        return -1;

    int mid = start + (end - start)/2;    //防止溢位
    if (arr[mid] > hkey)
        return binarySearch(arr, start, mid - 1, hkey);
    if (arr[mid] < hkey)
        return binarySearch(arr, mid + 1, end, hkey);
    return mid;  

}

Java while 循環


public static int binarySearch(int[] arr, int start, int end, int hkey){
    int result = -1;

    while (start <= end){
        int mid = start + (end - start)/2;    //防止溢位
        if (arr[mid] > hkey)
            end = mid - 1;
        else if (arr[mid] < hkey)
            start = mid + 1;
        else {
            result = mid ;  
            break;
        }
    }

    return result;

}

References

https://en.wikipedia.org/wiki/Binary_search_algorithm

轉載請註明出處 http://leonchen1024.com/2018/08/14/Binary-Search/

About Me

我的博客 leonchen1024.com

我的 GitHub https://github.com/LeonChen1024

微信公衆號

wechat

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章