HNSW算法原理（一）

原文鏈接：https://blog.csdn.net/CHIERYU/article/details/81989920

HNSW算法可類比於skip lists數據結構，對於增和查操作，其與skip lists有很多相同之處，下面講講HNSW算法中的2個關鍵問題，即：如何確定待插入點的層次，如何調參。

一、HSNW算法將樣本插入到第幾層

每個樣本屬於哪個層呢？

首先要寫一個確定層次的函數，樣本點屬於每一層的概率是確定好的，且是從底層到高層逐漸遞減的。

確定每層概率的函數如下：

//from faiss code
//levelMult = 1/log(M)
void HNSW::set_default_probas(int M, float levelMult)
{
    int nn = 0; 
    cum_nneighbor_per_level.push_back (0); 
    for (int level = 0; ;level++) {
        float proba = exp(-level / levelMult) * (1 - exp(-1 / levelMult));
        if (proba < 1e-9) break;
        assign_probas.push_back(proba);
        nn += level == 0 ? M * 2 : M;//特別地，第0層要求2M個鄰居，以提高recall
        cum_nneighbor_per_level.push_back (nn);
    }
}

上述代碼的原理可以參考如下圖片內容來輔助理解，層次t越大，那麼概率應該越小。

確定樣本層次的函數如下：

//from faiss code
int HNSW::random_level()
{
    double f = rng.rand_float();
    // could be a bit faster with bissection
    for (int level = 0; level < assign_probas.size(); level++) {
        if (f < assign_probas[level]) {
            return level;
        }    
        f -= assign_probas[level];
    }    
    // happens with exponentially low probability
    return assign_probas.size() - 1; 
}

然後確定n個樣本，每個樣本的層次，它跟特徵無關。

//from faiss code
for (int i = 0; i < n; i++) {
    int pt_level = hnsw.random_level();
    hnsw.levels.push_back(pt_level + 1);
}

int max_level = 0;
for (int i = 0; i < n; i++) {
    int pt_level = hnsw.levels[i + n0] - 1;
    if (pt_level > max_level) max_level = pt_level;
    hnsw.offsets.push_back(hnsw.offsets.back() + cum_nneighbor_per_level[pt_level + 1]);
    hnsw.neighbors.resize(hnsw.offsets.back(), -1);
}

上面的代碼來自faiss，下面看看 hnswlib上是如何確定樣本的層次的。

//from nmslib code
//c++11隨機數產生器
std::default_random_engine level_generator_;
size_t random_seed = 100
level_generator_.seed(random_seed);

int getRandomLevel(double reverse_size) {
	//產生U(0,1)的隨機數x,那麼1-x也是均勻分佈，-log(1-x)就是指數分佈
	std::uniform_real_distribution<double> distribution(0.0, 1.0);
	//逆變換採樣？
	double r = -log(distribution(level_generator_)) * reverse_size;
	return (int) r;
}

//調用
size_t M_ = 16
mult_ = 1 / log(1.0 * M_);// 0.83048202372
int curlevel = getRandomLevel(mult_);

下圖中，橫座標表示概率，取值範圍在[0,1]區間，對應藍色的線往橫座標投影值；縱座標表示某個點所在的最高層次，取值從0到正無窮，對應藍色的線往縱座標投影值。從中可以看到一個點對應的最高層次很大概率是第0層：

再看看Online-hnsw中是如何確定樣本的層次的：

//from online-hnsw code
//https://github.com/andrusha97/online-hnsw/blob/master/include/hnsw/index.hpp
size_t random_level() {
	// I avoid use of uniform_real_distribution to control how many times random() is called.
	// This makes inserts reproducible across standard libraries.

	// NOTE: This works correctly for standard random engines because their value_type is required to be unsigned.
	auto sample = random() - random_t::min();
	auto max_rand = random_t::max() - random_t::min();

	// If max_rand is too large, decrease it so that it can be represented by double.
	//此處保證max_rand在[0,2^20]之間
	if (max_rand > 1048576) {
		sample /= max_rand / 1048576;
		max_rand /= max_rand / 1048576;
	}

	double x = std::min(1.0, std::max(0.0, double(sample) / double(max_rand)));
	//注意此處係數與hnswlib不同，第0層的是1/log(2M_+1),非0層是1/log(M_+1)
	return static_cast<size_t>(-std::log(x) / std::log(double(options.max_links + 1)));
}

這樣就預先設置了每層有多少樣本點，當使用時：

//from faiss code
// build histogram
for (int i = 0; i < n; i++) {
    storage_idx_t pt_id = i + n0;
    int pt_level = hnsw.levels[pt_id] - 1;
    while (pt_level >= hist.size())
        hist.push_back(0);
    hist[pt_level] ++;
}

// accumulate
std::vector<int> offsets(hist.size() + 1, 0);
for (int i = 0; i < hist.size() - 1; i++) {
    offsets[i + 1] = offsets[i] + hist[i];
}

每個段的元素數目確定了，那每個段是哪些元素呢？這是由hnsw.random_level()隨機確定的。

//from faiss code
// bucket sort
for (int i = 0; i < n; i++) {
    storage_idx_t pt_id = i + n0;
    int pt_level = hnsw.levels[pt_id] - 1;
    order[offsets[pt_level]++] = pt_id;
}

至此，HNSW的插入樣本的層次就確定了。

具體添加元素是怎麼操作的呢？

調用函數add_with_locks。

二、HNSW的算法性能影響因素

HNSW算法需要調節的參數有哪些：M，efConstruction，levelMult，M_max0

爲了獲得最佳的性能，那麼要求不同層的鄰居點之間的重疊要小，爲了降低重疊，那麼就要降低levelMult，但是會使得每層的hop的個數增加，從而降低速度。在低位數據上調節好的參數到高維空間中很難成立，It is hard to expect the same behavior for high dimensional data since in this case the k-NN graph already has very short greedy algorithm paths. 但是在高維空間增加levelMult會讓速度更快卻沒有負面效果。但是對於128維來說還是有影響的。

Further increase(>100 in a 10M SIFT dataset) of the efConstruction leads to little extra performance but in exchange of significantly longer construction time.

在遍歷的過程中，traverse the graph,從1度鄰居點，到2度鄰居點，不斷往外擴，擴的過程中將更近的點加入結果列表中。由於下一個點屬於上層的概率爲p=exp(-levelMult)，因此在搜索該節點的鄰居時是有概率爲p的可能性到此爲止的，代碼中bool visisted來標記是否訪問過（想想看如何做並行訪問）。

想要了解更多關於faiss的線程問題，可以參考：http://houjie13.com/articles/2018/06/25/1529933223485.html

本文原文鏈接：https://blog.csdn.net/CHIERYU/article/details/81989920

HNSW算法原理（一）

一、HSNW算法將樣本插入到第幾層

二、HNSW的算法性能影響因素

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

vlfeat dense sift理解

CentOS6.5下編譯spark1.6.0源碼

如何實現單例模式

HNSW算法原理（一）

boost庫的編譯和使用

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結