二分查找(Binary Search)需要注意的問題，以及在數據庫內核中的實現[誰有源碼麻煩貼過來個鏈接學習學習]

原文引自：http://hedengcheng.com/?p=595#more-595

問題背景

今年的實習生招聘考試，我出了一道二分查找(Binary Search)的題目。題目大意如下：

給定一個升序排列的自然數數組，數組中包含重複數字，例如：[1,2,2,3,4,4,4,5,6,7,7]。問題：給定任意自然數，對數組進行二分查找，返回數組正確的位置，給出函數實現。注：連續相同的數字，返回第一個匹配位置還是最後一個匹配位置，由函數傳入參數決定。

我爲什麼會出這道題目？

二分查找在數據庫內核實現中非常重要

在數據庫的內核實現中，二分查找是一個非常重要的邏輯，幾乎99%以上的SQL語句(所有索引上的範圍掃描/等值查詢/Unique查詢等)，都會使用到二分查找進行數據的定位。

考慮一個數據庫表t1(a int primary key, b int)，表上的b字段有一個B+樹索引，表中記錄的b字段取值，就是題目中的[1,2,2,3,4,4,4,5,6,7,7]序列。此時，給定以下的兩條查詢語句，就是使用到了不同的二分查找邏輯：

SQL1： select * from t1 where b > 4;

SQL2： select * from t1 where b >= 4;

針對SQL1，索引的二分查找，就需要跳過所有的4，從最後一個4之後開始返回所有記錄；針對SQL2，二分查找就需要定位到第一個4，然後順序讀取所有記錄。

除此之外，針對數據庫中其他的查詢邏輯，二分查找還需要附帶更多的功能，例如：

SQL3： select * from t1 where b < 2;

SQL4： select * from t1 where b <= 2;

由於數據庫索引同時支持反向掃描，因此SQL3、SQL4的語句，都可以使用索引反向掃描。反向掃描時，SQL3需要定位到索引中的第一個2；而SQL4，則需要定位到索引的最後一個2，然後開始反向返回滿足查詢條件的索引記錄。

二分查找在程序設計中，是一個十分基礎並且易錯的功能

第一個真正正確的二分查找算法，在第一個二分查找實現之後的12年，才被發表出來。通過Google，輸入Binary Search或者是二分查找關鍵字，有大量的相關的文章或者博客討論此話題。

二分查找實現，需要注意的問題

本文不準備詳細介紹一個正確的二分查找應該是如何實現的，畢竟現在網上有着大量的正確版本。接下來，根據批改試卷過程中發現的一些問題，做一些簡單的分析，希望對大家實現一個有效的二分查找算法，甚至是一個數據庫內可用的二分查找算法，有所幫助。

問題一：是否檢查參數的有效性

大量的試卷，在給出此問題的解決算法時，直接拿着low，high參數開始進行計算，但是卻沒有檢查low/high參數。low/high是否相同，數組中是否存在記錄？low/high構成的區間是否有效？代碼的魯棒性不足。

在數據庫的二分查找實現中，一般是對一個索引頁面進行二分查找。索引頁面中有可能根本不存在用戶的記錄(索引頁面中的記錄全部被刪除，又沒有與兄弟頁面合併時)，此時，low/high均爲0，此時如果根據low/high計算出來的mid進行記錄的讀取，就存在邏輯錯誤。

問題二：二分查找中值的計算

這是一個經典的話題，如何計算二分查找中的中值？試卷中，大家一般給出了兩種計算方法：

算法一： mid = (low + high) / 2

算法二： mid = low + (high – low)/2

乍看起來，算法一簡潔，算法二提取之後，跟算法一沒有什麼區別。但是實際上，區別是存在的。算法一的做法，在極端情況下，(low + high)存在着溢出的風險，進而得到錯誤的mid結果，導致程序錯誤。而算法二能夠保證計算出來的mid，一定大於low，小於high，不存在溢出的問題。

回到數據庫二分查找，數據庫的一個索引頁面(大小一般是8k或者是16k)，能夠存儲的索引記錄是有限的，因此肯定不會出現(low + high)溢出的風險。這也是爲什麼InnoDB中的中值，採用的就是算法一的實現。但是，作爲一個嚴謹的程序設計人員，還是推薦使用算法二，將任何潛在的風險，扼殺於搖籃之中。

問題三：遞歸實現二分查找

超過一半的試卷，使用了遞歸調用的方式實現二分查找。不能說遞歸實現有錯，而是在於實現效率問題。總所周知，遞歸調用存在着壓棧/出棧的開銷，其效率是比較低下的。而以數據庫這樣一個極端優化代碼效率，提供快速查詢響應的系統來說，效率是第一位的。不建議使用遞歸方式實現二分查找，至少在數據庫內核實現中是不允許使用的。據我所知，所有的開源數據庫系統，例如：InnoDB，PostgreSQL都未採用遞歸方式實現二分查找。

問題四：如何查找第一個/最後一個等值

回到題目，要求根據傳入的參數不同，返回第一個/最後一個等值項。在本文的背景部分，我也解釋了此問題對應的數據庫查詢(>，>=查詢需求是不同的)。在試卷中，超過80%的同學的答案都是先進行二分查找，待定位到相同值之後，再根據傳入的flag(用戶需求：flag = 1，返回第一個等值項；flag = 0，返回最後一個等值項)，進行順序遍歷，直至定位到滿足條件的項。

同樣，不能說這個實現是錯的，但是也存在着性能問題。性能性能性能，永遠是數據庫內核實現考慮的重點之一(相信也是所有應用程序的一個指標)。數據庫中，除了主鍵索引/Unique索引能夠保證鍵值唯一之外，很多二級輔助索引都是存在相同鍵值的，有時相同鍵值的項會超過千項(考慮一個用戶的訂單，或者是購買記錄)。

假設一個索引頁面，保存着400項記錄，均爲相同鍵值。此時，使用先二分查找，後順序遍歷的算法，二分查找只能使用一次，順序遍歷199次，最終對比了200次。效率非常之低。當然，我也欣喜的看到另外一小部分同學的做法(我期待看到的算法)，用flag來糾正每次比較的最終結果。例如：比較相等(相等用0表示，大於爲1，小於爲-1)，但是flag = 1，則返回糾正後的比較結果爲1，需要移動二分查找的high到mid，繼續二分(反之，若flag = 0，則返回糾正後的結果爲-1，需要移動二分查找的low到mid，繼續二分)。如此一來，等值仍舊可以進行二分查找，最終的對比只需要9次，遠遠小於200次。

此問題，進一步引出了下一個問題，數據庫中如何實現一個通用的，更爲複雜的二分查找算法？

問題五：數據庫中的二分查找實現舉例

數據庫中的二分查找，更爲複雜，需要實現一個通用型的二分查找算法，使用於各種不同的SQL查詢場景。

InnoDB針對不同的SQL語句，總結出四種不同的Search Mode，分別爲：

#define PAGE_CUR_G 1 >查詢

#define PAGE_CUR_GE 2 >=，=查詢

#define PAGE_CUR_L 3 <查詢

#define PAGE_CUR_LE 4 <=查詢

然後根據這四種不同的Search Mode，在二分查找碰到相同鍵值時進行調整。例如：若Search Mode爲PAGE_CUR_G或者是PAGE_CUR_LE，則移動low至mid，繼續進行二分查找；若Search Mode爲PAGE_CUR_GE或者是PAGE_CUR_L，則移動high至mid，繼續進行二分查找。

我們的TNT引擎，採用了與InnoDB不同的方案，但是也實現了相同的功能。TNT引擎針對相同鍵值的調整總結爲下圖，在此我就不做解釋了，大家可以嘗試着自己進行分析。

/* 操作符 includeKey forward compare result: 1 0 -1 */

=============================================================================

>= 1 1 | 1 -1 -1

= 1 1 | 1 -1 -1

> 0 1 | 1 1 -1

< 0 0 | 1 -1 -1

<= 1 0 | 1 1 -1

=============================================================================

總結

本文通過一個二分查找的題目，以及同學們在解答題目中暴露出來的問題，分析了一個安全可靠高效的二分查找，應該注意哪些問題。並簡要分析了數據庫內核實現中的二分查找實現，希望對大家在以後設計二分查找算法時，有所幫助。

/* ------------------------------------------------------------------------------------------------------------------------------------------ */

【Ps: 附加自己寫的C++二分查找代碼，沒加flag標記的.....】

#include <iostream>
#include<stdio.h>
#include <cstdio>
#include<cstring>
using namespace std;

int BinarySearch(int array[], int len, int value)
{
	if (array == NULL || len <= 0)
		return -1;

	int low = 0;
	int high = len - 1;
    int mid =0;
	while (low <= high)
	{
        mid= low + (high - low) / 2;

		if (array[mid] == value)
		{
            return mid;
		}

		else if (array[mid] > value)
			high = mid - 1;

		else
			low = mid + 1;
	}
    return -1;
}
int main()
{

    int data[]={1,2,2,3,4,4,4,5,6,7,7};

    int num=0;//要查找的數字
    int len=sizeof(data)/sizeof(int) - 1;

	while(cin>>num)
	{
        cout<<BinarySearch(data,len,num)<<endl;
	}

	return 0;
}

二分查找(Binary Search)需要注意的問題，以及在數據庫內核中的實現[誰有源碼麻煩貼過來個鏈接學習學習]

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

nodejs學習06——小案例

不經事，不懂事

Tomcat環境變量配置(來自百度經驗)

git學習資源

git使用問題解決----warning: LF will be replaced by CRLF

畢業設計Notes -- 1

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結