高速外存體系下的高維索引標準.思路列表

原創

2020-07-08 01:39

現有的外存體系是DDR內存+磁盤二級存儲結構。磁盤的優點是廉價，在存放大數據背景下的海量數據時擴充容量的代價容易承受。

但是，數據管理的其他操作就有些蛋疼了，很多基本的操作都發現無法避免一個瓶頸：內外存間的通信(Jeffrey Scott Vitter)

基於閃存的高速外存(SSD)沒有隨機I/O，這對很多ENN(Exact Nearest Neighbor)搜索方法是福音。典型的，va-file, fnn等一衆將遍歷作爲算法搜索框架的方法會收益。這些方法在通過近似計算留下候選集後需要加載原始向量（數據點）精煉出ENN，當候選集內的點往往不是連續的，於是形成了隨機I/O，這也成爲了其一大短板。現在這一短板沒了，Weber在98年的觀點又一次煥發出威力：高維空間中任何基於聚類的方法其性能都將衰減到不如線性掃描。

不過，沒有了對隨機I/O的擔憂不代表沒有了對I/O的擔憂。沒有了醒目的隨機I/O，新體系下的高維索引在解決ENN的時候考量的各項性能的反而都變得無法忽視，主要有以下幾個：加載的候選點的個數、加載的其他數據的規模、昂貴計算的次數（主要是距離度量）、其他輔助量的計算量（例如，Adaptive distance bound, HB中的lower bound計算）。

除此之外，可能還會加上內存開銷。

從這個角度，va-file如果放在外存，整個va-file加載進入內存也會伴有一定量的I/O，而聚類的一些方法索引結構體量很小，並且要加載的數據都是隨需（計算出要加載的下一個聚類）加載的。並且聚類的方法並沒有損失什麼（原本外存技術的提高也不應對算法產生副作用）只不過也沒有得到太多的促進而已。聚類方法本身的優勢依舊存在，例如HB中自適應的邊界相對於其他邊界的優勢。

現在，定義高維和大規模，綜合審視ENN搜索方法的表現是否已經盡如人意？可以做一個綜述的評價。不顧答案應該不太積極。

進一步提升ENN搜索算法性能的着手點在哪裏？

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

高速外存體系下的高維索引標準.思路列表

電子科技大學計算機科學與技術就讀體驗

Golang爬蟲代理接入的技術與實踐

C2LSH沒有用多個hash table，是怎麼解決False Negative的？

高速外存體系下的高維索引標準.思路列表

FNN:利用均值和方差構造歐式距離下界

基於kNN完善digit recognition(kaggle)精度(0.95-->1)[進行中]

Ubuntu 14.04 安裝搜狗輸入法 [banyun]

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結