高速外存體系下的高維索引標準.思路列表

現有的外存體系是DDR內存+磁盤二級存儲結構。磁盤的優點是廉價,在存放大數據背景下的海量數據時擴充容量的代價容易承受。

但是,數據管理的其他操作就有些蛋疼了,很多基本的操作都發現無法避免一個瓶頸:內外存間的通信(Jeffrey Scott Vitter)

基於閃存的高速外存(SSD)沒有隨機I/O,這對很多ENN(Exact Nearest Neighbor)搜索方法是福音。典型的,va-file, fnn等一衆將遍歷作爲算法搜索框架的方法會收益。這些方法在通過近似計算留下候選集後需要加載原始向量(數據點)精煉出ENN,當候選集內的點往往不是連續的,於是形成了隨機I/O,這也成爲了其一大短板。現在這一短板沒了,Weber在98年的觀點又一次煥發出威力:高維空間中任何基於聚類的方法其性能都將衰減到不如線性掃描。

不過,沒有了對隨機I/O的擔憂不代表沒有了對I/O的擔憂。沒有了醒目的隨機I/O,新體系下的高維索引在解決ENN的時候考量的各項性能的反而都變得無法忽視,主要有以下幾個:加載的候選點的個數、加載的其他數據的規模、昂貴計算的次數(主要是距離度量)、其他輔助量的計算量(例如,Adaptive distance bound, HB中的lower bound計算)。

除此之外,可能還會加上內存開銷。

從這個角度,va-file如果放在外存,整個va-file加載進入內存也會伴有一定量的I/O,而聚類的一些方法索引結構體量很小,並且要加載的數據都是隨需(計算出要加載的下一個聚類)加載的。並且聚類的方法並沒有損失什麼(原本外存技術的提高也不應對算法產生副作用)只不過也沒有得到太多的促進而已。聚類方法本身的優勢依舊存在,例如HB中自適應的邊界相對於其他邊界的優勢。

現在,定義高維和大規模,綜合審視ENN搜索方法的表現是否已經盡如人意?可以做一個綜述的評價。不顧答案應該不太積極。

進一步提升ENN搜索算法性能的着手點在哪裏?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章