RS-ANN 讀論文

摘要

在敏感的數據庫應用程序(例如,時間序列,科學數據庫和生物識別)中,數據庫被加密並外包到公共雲(outsourced to a public cloud,),安全近似k-最近鄰(SANN)查詢是一個基本的研究課題,旨在從加密數據庫中檢索與的給定查詢類似的高維對象(retrieving high- dimensional objects that are similar to a given query from encrypted database.) 。**要在不解密雲中的數據的情況下處理此類查詢( process such queries without ever decrypting the data in cloud i)**仍然是一項具有挑戰性的任務。現有工作遇到各種固有限制,例如查詢可區分性,低級效率和不可恢復性。所有這些都導致脆弱的安全性或低精度。因此,該領域的大多數現有工作對於工業應用是不切實際的。

在這項工作中,我們提出了一個新的模型,以消除上述限制。 具體而言,在歐幾里德高維空間中提出了一種可重用且單交互的SANN範式(SANN paradigm)。

  • 首先,我們提出了B + -tree(即Bc-Tree)的安全變體,通過利用相當加密(by leveraging on rather encryption)來快速定位雲中的高動態候選者(quickly locate high-dynamic candidates in cloud)。
  • 在此基礎上,任意查詢請求者通過線性掃描候選者(linearly scanning)獲取近似k近鄰
  • 同時進行兩個改進,提出多**指標策略(multi-index strategy)和提升細化策略( boosting refinement strategy)**以進一步提高搜索結果的準確性,並分別克服帶寬的高依賴性。 最後,通過對四個數據集的廣泛評估,所提出的機制在準確性和安全性之間的權衡中被證明是優越的

1.Introduction

使用公共雲提供服務隨着可能出現的安全問題。
因此,消費者別無選擇,只能加密整個數據庫(因此,消費者別無選擇,只能加密整個數據庫以避免此類泄漏風險。 最近,已經廣泛研究了安全kNN(SkNN)問題以解決對加密數據的kNN查詢[7,16,29,30]。 然而,由於“維度的詛咒”[14],kNN查詢屈服於順序掃描,因此效率很低。 這種缺點推廣了近似kNN(ANN)搜索,它提供了準確性和效率之間的權衡[6,11,19,27]。 具體而言,ANN查詢將k近似最相似的對象返回給定查詢。 據我們所知,安全的ANN(SANN)解決了ANN在加密數據上的問題,遠未得到充分的研究

SANN查詢在in semi-honest public cloud中提供了有效的ANN查詢實現。它可以防止由公共雲的未授權操作的私有數據泄露(例如,數據挖掘,羣集,分析等)和攻擊者的攻擊造成的泄漏。但是,現有的SANN方案存在幾個固有的缺點:
(1)查詢可區分性(Query distinguishability)
(2)低水平的效率
(3)不可恢復性
總之,SANN領域缺乏文獻資格,特別是在高維歐氏空間中。


在這項工作中,旨在克服上述固有缺點,提出了一種可重用且單交互的SANN(RS-SANN)查詢方案。我們只關注在電子醫療和多媒體數據庫中廣泛採用的高維歐幾里德空間。通過實現三種主要機制獲得RS-SANN。首先,採用局部敏感散列(LSH)的變體將原始對象映射爲線性代碼。基於此,在B
+樹上構建了一種新的數據索引結構Bc-tree,其中節點通過可比加密(CE)加密[10]。在CE中,密碼只能與適當的令牌( an appropriate token)進行比較。細節將在稍後討論。
Bc-tree提供數據和索引的保密性保證,並且能夠同時快速定位候選者。其次,作爲一種常用方法,多指標策略得到了很好的支持,以提高ANN結果的準確性。最後,我們提出了一種增強的重新策略來解決候選傳輸(candidate
transmission)引起的大量帶寬佔用問題。

本文的主要貢獻如下。
• 分析和分類SANN的安全要求。
• 基於一種新穎的數據索引結構Bc-tree,提出了一個帶有兩個改進的RS-SANN,其中包括安全性和準確性的理論分析。
• 通過對四個數據集的廣泛評估,詳細展示了RS-SANN的性能。 實驗研究表明了所提出的方案的優越性。

2.Problem definition


在本節中,我們將介紹SANN的框架,如圖1所示。. Data owner (owner) 對數據進行加密,構建安全索引,並將它們分包給公共雲服務器(server)。所有者和客戶共享密鑰以訪問加密的數據值。 由於服務器是半誠實的,因此相應的數據樣本代碼在索引中被加密(十六進制值),並且只能用於服務器。服務器可以訪問安全索引,但沒有別的,特別是解密能力。
在進行查詢時, client首先生成加密查詢(an encrypted query)並將其發送到服務器。 然後,server通過遞歸地訪問安全索引(tes by )來定位ANN候選者。 最後,client計算獲得ANN結果by further metric computations.
在這裏插入圖片描述
SANN中server的主要任務是設計一種機制,支持訪問整個安全索引而無需解密節點或葉子。
先前的工作有:
使用保序編碼(OPE)加密節點,低效率。
採用昂貴的加密計算,不切實際。

總之,我們在本文中要解決的主要挑戰如下:

  1. 如何建立一個安全的索引(supporting slow candidates releasing)來定位交互次數有限的候選人? (第3.3節)
  2. 如何爲ANN搜索生成加密查詢(generate an encrypted query)? (第4節)
  3. 如何提高準確性並設計支持緩慢候選人發佈的策略?(supporting slow candidates releasing) (第5節)

2.1.System model


爲了便於描述,設D = xixi∈Rd^1≤i≤D爲數據集。其中 d 是對象xi的維數,和 |D| 是數據集的大小。
在這裏插入圖片描述表示爲安全索引,在這裏插入圖片描述被表示爲要索引的一組codes,在這裏插入圖片描述作爲候選集,
作爲數據加密的祕密密鑰(對應…,索引加密)。 這兩個密鑰都由owner和client保存。
E(O)是元素O的加密形式。


定義1(單交互式SANN)。 單交互式SANN由以下4種算法組成:

  1. Data encrption:作爲輸入數據集D和數據加密密鑰sk。 輸出加密數據集E(D)= {E(xi)|xi∈D},其中E(xi)是xi的加密形式。
  2. Index generation:作爲輸入D和索引加密密鑰skI。 選擇適當的數據索引結構並輸出安全索引(secure index) I .
  3. Query transformation:作爲輸入skI和查詢 q ,輸出加密查詢點 E(q)。
  4. Search@Server:輸入E(q),I 和E(D)。 通過服務器和客戶端之間的單個交互輸出加密的候選集E()
  5. Search@Client:輸入E(8),q和sk。 用sk解密E(8)並且輸出ANN的結果。
  6. Refinement:將輸入E(q),I,E(D)和E(8)作爲輸入。 輸出補充候選集E(8j)具體而言,客戶端從服務器獲取E(8)的過程必須限制爲單個交互。 此外,SANN對提高效率至關重要。 此外,Refinment用於提高準確度或減少帶寬依賴性。

2.2.Security Requirements


在現有工作中,解決方案解決了不同安全級別的SNN問題。 一般來說,隨着水平的提高,在實踐中滿足安全要求(SEs)的困難顯着增加。 SE的水平總結如下。

  • SE1數據保密性。
    這種安全要求保證了即使服務器受到損害也能保護原始數據。 SE1通過[8,16,20]中的數據轉換和[5,7,30]中的對稱加密來滿足。
  • SE2查詢保密性。
    查詢受各種加密工具的保護。因此,攻擊者無法獲取查詢本身。但是,當攻擊者跟蹤查詢時,他可以通過查詢統計攻擊捕獲查詢的分佈並推斷客戶端的私有信息。
  • SE3查詢不可區分。
    沒有對手可以判斷是否爲同一個原始查詢生成了兩個提交的查詢。這使得對手很難直接獲得查詢的分佈[5,7,29]。不幸的是,攻擊者仍然可以通過監視返回的候選集來獲得分發。原因是,對應於同一查詢的返回候選集仍然是固定的。
  • SE4候選人(結果)難以區分。
    當服務器根據唯一的查詢兩次將候選集發回客戶端時,攻擊者無法區分差異。 [7]中的工作通過打擾候選人來滿足這種安全要求。因此,攻擊者無法獲取查詢的分佈或推斷客戶的私人信息。

因此,值得注意的是,當且僅當SE1,SE2和SE3滿足時,RS-SANN纔是可重複使用的。

3.Index structure


在本節中,我們將解決第一個挑戰:How to build a secure index to locate candidates with limited number of interactions?

爲了實現索引生成,我們提出了一種基於LSH函數變種的優化線性順序( an optimized linear order)。 接下來,Bc樹被設計爲索引高維對象以進行快速候選定位。

3.1 Variation of locality sensitive hashing

在介紹Bc樹之前,我們簡要介紹LSH [6]的變體,這是ANN[11,17,19]中廣泛採用的基本工具。 通常,所有對象都通過幾個複合LSH函數映射到代碼中。 當查詢到達時,提交查詢的代碼,並將接近查詢代碼的對象作爲ANN候選者返回。與高維空間中的其他kNN解決方案[14]相比,這種方法顯着提高了效率。

形式上,LSH函數h:Rd→N將d維對象(即,向量)映射爲單個整數。
在這裏插入圖片描述
這裏,α是從DG隨機抽取的矢量,它是由密度函數f(x)=(1 /√2π)e-x2 / 2定義的2穩定高斯(正態)分佈。
ω是一個合適且獨特的段長度,r從[0,ω]中均勻地隨機抽取。
對於代碼的二進制表示,我們提出了一個修改的LSH函數來將每個高維對象v映射到一個統一的整數空間 Z2
在這裏插入圖片描述
在實踐中,爲了放鬆隨機性的影響,總是採用一組LSH函數(如定義3)
在這裏插入圖片描述

3.2 Linear encoding

給定一個 G 函數 和 任意向量 p,我們將每個散列值(hash value)ki 映射到均勻整數空間Z2λ。 然後將在這裏插入圖片描述
在這裏插入圖片描述映射到 遵循z階樣式(following the z-order style)[27] 的單個二進制代碼(singlebinary code)在這裏插入圖片描述。 最終代碼從最左邊的位開始交織(interleaves)m個散列值的位。

p1的代碼是在這裏插入圖片描述令C = {Cx |x∈D},其中Cx∈{0,1}λm,然後<C,≤>顯然是線性順序集(linear order set),其中≤是線性碼之間的逐位比較。 這種方法稱爲線性編碼。

在這裏插入圖片描述
在這裏插入圖片描述

3.3 Bc-tree

基於線性順序集<C,≤>,可以構建各種數據索引結構,由於搜索效率和準確性高,B + -tree被廣泛用於高維數據管理。爲了避免泄露線性數據代碼,採用Comparable encryption來加密B +樹中的關鍵字段。我們將這樣的數據索引結構稱爲Bc-樹。

在這裏插入圖片描述
圖2中示出了每個節點中具有3個level和4個slot的Bc樹的實例。這裏我們看到內部節點由最多4對key field 和child points組成(即,與B+樹相同)
葉節點還有一個data field。key field存儲加密代碼(十六進制值 密後完全無法訪問代碼的純文本(十進制值)。data field 以加密算法(例如,DES,AES,RC4等)存儲加密對象。
此外,**雙向鏈表(a bidirectional linked)**從最小代碼(minimal code)開始,以最大代碼(maximal code)結束。

剩下的關鍵問題是如何加密key fields並提供加密後的可比性(comparability)。 CE算法[10]是解決此類問題的有效方法。算法2中顯示了基於CE的代碼加密算法,

在這裏插入圖片描述
對於數據集D,根據對應於數據樣本的代碼構建B +樹。 然後,關鍵字段key field 由算法2加密,數據字段 data field 通過安全對稱加密算法加密。 到目前爲止,已經基於Bc-tree構建了安全索引。

RS-SANN

4.1 Construction

在初始化期間,適當地選擇系統參數SP =(Enc,Dec,κ,nciph,HashA,HashB,HashC)。 選擇Enc和Dec作爲在選擇明文攻擊(IND-CPA secure)下滿足難以區分的安全性的數據加密和解密算法.參數κ,nciph,HashA,HashB和HashC是用於可比較加密3.3的參數。
另外,密鑰由三個部分組成。 Gm是一個G函數,由基於方程式的m個修改的LSH函數組成(等式1),適當的單個碼長λ。 隨機選擇索引加密密鑰skI∈{0,1}κ(resp.sk∈{0,1}κ)用於可比較的加密(分別爲Enc)。
SP在所有者,服務器和客戶端之間共享。 所有者和客戶7之間安全地共享Gm,sk和skI。

數據加密。 輸入SP,D和sk。 owner選擇數據加密密鑰sk,運行Enc以獲得E(xi)= Encsk(xi)。顯然,所有者輸出E(D)= {E(xi)|xi∈D}。
在這裏插入圖片描述

索引生成
作爲輸入SP,D,Gm和skI。
首先,所有者通過算法1導出xi的代碼Ci,其中xi∈D.
然後,通過將代碼Ci設置爲鍵值key value並將xi設置爲數據值date value來構建標準B +樹。在以明文生成索引之後,安全索引 I 最終來自通過算法2加密所有關鍵字段並將 E(xi)嵌入到數據字段data filed中。
在這裏插入圖片描述
在這裏插入圖片描述
查詢轉換
作爲輸入SP,Gm和skI。客戶端執行查詢轉換算法來加密查詢q。這種算法在算法3中正式描述。查詢q在開始時被轉換爲代碼C(第2行)。然後,C順序保持擴展到{0,1}nciph(第3行)並生成令牌(第4-8行)。加密查詢E(q)最終生成並返回(第9-14行)。
在這裏插入圖片描述
在這裏插入圖片描述
搜索@服務器。
輸入SP,E(D),E(q)和 I.
服務器執行此過程以定位候選並輸出候選集。一般的想法是以與訪問B +樹相同的方式遞歸地訪問Bc樹。
剩下的問題是比較關鍵字段之間的E(q),因爲B + -tree中的密鑰值key value是加密的並且是直接無法比較的。

根據算法2和3,關鍵字段表示爲E(C)=(RC,FC),加密查詢是E(q)=(tokenq,Rq,Fq),其中tokenq =(d1,d2,… ,dnciph)。

算法4實現任意E(C)和E(q)之間的比較。 Fq和FC是首先分別存儲在數組f []和fj []中(第2-5行)。 比較結果通過循環確定(第6-14行)。循環的本質是將查詢的代碼和密鑰值從密碼中的高位到低位的按位比較。
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述
在這裏插入圖片描述

搜索@客戶端在這裏插入圖片描述

4.2 Security analysis

SE1-3 not satisying SE4

4.3 Accuracy analysis

類似於[19,27]中基於LSH的ANN解決方案,其精度保證可以通過定義2得出,RS-SANN也表現出令人滿意的精度。
在這裏插入圖片描述
在這裏插入圖片描述
Search @ Server中服務器的目標是找到q的相鄰代碼。 定理1確保q的最接近向量具有很大的概率在集合中。

4.4 Complexity analysis

時間複雜度分析

5 Refinements

還有另外兩個問題:
(1)兩個對象在單個Gm函數下不共享相同代碼的概率是不可忽略的; (there is a non-negligible probability that two objects do not share same code under a single Gm function;
(2)發送候選是帶寬敏感的,因爲候選集的大小總是比結果大1-2個數量級。這兩個問題都顯着降低了效率。(transmitting candidates is bandwidth sensitive since the size of candidate set is always 1-2 magnitudes larger than that of result. Both problems bring down efficiency significantly.

我們分別介紹兩種新的策略來解決上述問題。
多指標策略(Multi-index strategy)採用多個Bc-tree(Bc-forest)來管理高維對象,並解決了第一個問題。
**提升戰略(Boosting refine strategy是一種多輪化的漸進式候選人發佈戰略 **(a multi-round progressive candidate releasing strategy),使client能夠獲得粗略的結果並逐步優化準確性。它顯着降低了帶寬對發送候選者的依賴性,並使RS-SANN帶寬不敏感。

5.1 Multi-index strategy

在這裏插入圖片描述
爲了克服這個限制並提高ANN結果的準確性,我們引入了一個多指標機制,如[19,27],稱爲Bc-forest。
具體地說,**服務器維護一個由多個Bc樹組成的Bc-forest。**在圖4中,我們僅顯示Bc樹的底部雙向鏈表。注意,對於所有者生成的每個Bc樹,數據加密密鑰和索引加密密鑰都是完全獨立生成的。
當進行RS-SANN時,client首先爲第 i 個安全索引 Ii 生成加密查詢Ei(q),其中1≤i≤nI,nI是Bc-forest中的Bc樹的數量.Server爲每個 I 執行Search @ Server產生 E(8)。加密候選集是E(8)= nI E(8),其進一步發送給client。
client解密所有加密的候選者,刪除重複的候選者,最後順序掃描一些剩餘的候選者以獲得ANN結果。

由於Bc-forest由多個Bc樹組成,因此有兩種可能的方法來實現Bc-forest。

  • 一方面,Bc樹被分包到不同的雲。
    • 另一方面,整個Bc-forest被分包到一個雲。但是,它超出了本文,在此省略。同時,雖然在這裏插入圖片描述從粗略的外觀來看,這種策略比純RS-SANN大得多,導致效率低,每個Bc樹中候選的大小確實比純RS-SANN小得多。因此,如第6節所示,效率幾乎沒有變化,精度將得到顯着提高。

5.2 Boosting refine strategy

在這裏插入圖片描述
增強改進策略(Boosting refine strategy)允許客戶立即獲得次優的ANN結果,然後通過改進協議獲得更好的結果它顯着降低了傳輸候選集的帶寬依賴性,並且在帶寬相對較低且允許延遲的情況下運行良好。在這種情況下,客戶端感知的佔用帶寬比純RS-SANN小1個數量級。此外,我們的模型在不同的帶寬設置下具有高適應性。

Boosting refine strategy的概述如圖5所示。| 8 |是可以通過通信信道傳輸一次的候選集的大小。這裏,爲了便於理解,它被定製爲最近鄰居的數量,k = 3.在第一次交互期間,服務器返回3個附近的加密候選者E(8)= E(x0),E(x12),E(x4) )。然後,如圖所示順序返回其他不太靠近的候選者。在每次交互之後,對擴展的候選者執行Search @ Client以獲得更好的ANN結果。當客戶不再需要精確度時,這種交互就會停止。每種這樣的相互作用稱爲增強(boosting)。
圖6詳細示出了用於提升重新策略的交互協議。該協議從服務器進行Search @ Server開始,以獲得E(8)。服務器將E(8)發送給客戶端。然後,他可以通過Search @ Client獲取或更新ANN結果。如果不滿足準確性要求,客戶會發送更多候選人的請求。服務器執行增強,如圖5所示,以獲得E(8)並將其發回。客戶端通過E(8)上的順序掃描來確定ANN結果。重複以上過程,直到滿足精度要求。

5.3 Analysis

在這一部分中,我們提出了補充分析的RS-SANN與兩個不利的戰略。兩個方面的安全性、準確性和複雜性分析如下。

安全性分析。對於多索引策略,每個安全索引對應於完全不同的sk、ski和gm集,它們是彼此獨立選擇的,因此不再引入安全問題。爲了增強重新定義策略,當服務器返回更多候選時不會發出額外的查詢。僅收集D中的附近向量而不解密。因此,也沒有引入更多的安全問題。總之,採用兩種策略都不會影響RS-SANN的安全性。
準確度分析。對於多索引策略,將向客戶機發送更接近給定查詢的候選對象。根據定理1,兩個對象代碼越接近,它們最接近的可能性就越大。精度將顯著提高。爲了加強重新定義策略,在開始時,返回的候選人數量有限。但是,通過多輪釋放候選對象,可以根據定理1提高精度。同時,帶寬依賴性降低。
複雜性分析。對於多指標策略,其複雜度是沒有補償機制的RS-SANN的ni倍。對於增強重新定義策略中的每個交互,服務器查找附近候選對象的時間成本幾乎爲零。

6 Performance Study

比例。平均響應時間

![在這裏插入圖片描述](https://img-在這裏插入圖片描述

6.1 Theoretical comparisons

因此,我們的RS-SAnn模型在安全性和效率之間提供了最佳的權衡。

6.2 Parameter selection

爲了評估我們模型的性能,我們在運行Linux的Intel Xeon CPU E5-2680 [email protected] GHz和256 GB內存的工作站上進行了實驗研究。採用STX B+樹+ C++模板類8來構造BC樹。葉節點和內部節點中的槽數固定爲s=8(The number of slots in leaf nodes and inner nodes is fixed as s = 8)。數據保密採用的IND-CPA加密解密算法是標準的電子密碼本(ECB)模型AES(The IND-CPA encryption and decryption algorithm adopted for data confidentiality is standard AES with electronic code book (ECB) model. )。 sk密鑰大小爲128位,與塊大小 the size of blocks.相同。

6個重要參數

6.3.Performance over different dimensionalities

6.4 6.4.Performance over different cardinalities

7.Related work

K最近鄰(knn)是預測分析中常用的一種核心需求,它可以根據鄰域的共識來估計或分類一個對象。然而,在處理高維對象(如音頻、圖像、視頻等)時,“維度詛咒”[14]對搜索knn的效率產生了巨大的負面影響。因此,最近在各種數據應用中對加密數據的ANN查詢進行了研究。

  • 降維是解決傳統神經網絡問題的第一種可行方法[25,26]。首先,將高維對象轉化爲低維對象,利用傳統的數據結構(如B+樹、B樹等)構造索引;然後,通過訪問索引可以解決ANN problem。然而,這種方法引入了許多無效的候選者invalid candidates。
  • 近年來,LSH在數據庫社區和計算機視覺社區被引入了ANN。LSH提供了良好的效率和有限的誤差保證。LSB[27]是第一個基於LSH的解決方案,通過撤銷空間擬合曲線和B+樹來解決ANN問題。( resolve ANN problem, by revoking space filling curve and B±tree. )
  • 接下來,C2LSH[11]通過計算基於lsh的桶中的碰撞時間(by counting collision times in LSH-based buckets來提高效率和準確性。劉[19]通過將相鄰候選項存儲在一個頁面中,以最小化在ANN過程中的I/O成本,提出了SK-LSH。

然而,傳統的ANN並不能很好地應用於雲區域,因爲它們都沒有像我們在引言中描述的那樣考慮到安全挑戰。因此,SANN亟待解決。
所有的SANN算法都可以分爲兩類:非加密方法和加密方法。
在非密碼方法non-cryptographic approaches中,密碼算法在索引設計中起着輔助作用。這意味着,在這種方法中的候選定位期間,沒有加密操作(例如,加密、解密等)。
在密碼方法cryptographic approaches中,密碼算法在索引設計中起着主導作用。在候選定位的同時,加密操作是不可避免的,如基於ope的方法中的cipher comparison、HE中的cipher computation等,
我們將討論雲中的兩類SANN算法。

Non-cryptographic approaches
雙曲線查詢分辨率tographic approaches.(DCQR)[16]是爲了解決KNN查詢,只保留雲中地理二維數據的位置隱私。然而,該方案並未固有地提供數據一致性。Yao等人基於[30]中的Voronoi分區方法,解決了雲中二維數據的nn查詢問題。這項工作是IND-CPA安全的,爲數據和查詢提供了明確的保證。當該方法推廣到高維空間時, Voronoi partition變得過於複雜,難以完成。
基於PQ的ANN[20]是在高維空間中解決ANN query問題的一種方法,無需保證數據的一致性。
根據我們的調查,現有的方法都沒有同時提供以下特徵:數據和查詢的一致性、查詢不可區分性和高維空間的可伸縮性。

Cryptographic approaches.
在候選定位中引入了密碼操作,以提供理論安全性。ope[1]是KNN查詢應用程序中引入的第一個加密操作。還提出了其他基於操作環境的方法,如[3,5,12,18,23]。Popa等人[22]指出在ope中,理想的安全性需要使用可變密碼,並提出了一種ope方案,在命令選擇明文攻擊(ind-ocpa-secure)下實現不可區分的安全性。它打破了大多數基於ope的knn查詢方法的限制,例如[3,12,18,23]。Choi等人[5]提出了基於ope的雲環境中第一個ind-ocpa安全nn解決方案。然而,在搜索@server的過程中,服務器和客戶端之間需要多個交互,從而導致無法承受的通信成本。

同態加密[13]Homomorphic encryption被廣泛採用,實現了對雲中加密數據的 ANN query。
Elmehdwi等人[7]提出瞭解決加密數據的KNN查詢問題的方案。然而,同態加密的昂貴成本使得它在應用程序中變得不切實際。另外,解決方案只適用於關係數據庫,而不適用於高維對象。
在[15,29]中的其他研究集中在解決基於標量積保持加密和隱私同態的高維空間問題。不幸的是,這兩種方法在[30]中都被證明是不安全的。

在[9,10]中類似的加密禁止在ope中允許的密碼之間進行任意比較。如果且僅當其中任何一個的令牌被授權時,兩個密碼才具有可比性。注意,類似的加密只需要在服務器和客戶機之間進行一次交互,如第4節所述。這是一個很好的自然特性,適用於加密高維數據的 ANN query。與[9]中的工作不同,在[10]中的工作進一步縮短了密碼長度並節省了通信帶寬。與同態加密相比,它的優點是無需基於網格的操作即可快速進行比較。因此,我們修改並將類似的加密引入RS-SANN中,並消除了現有方法中的一些負面特徵,如第1節所示。

8.Conclusion

Secure similarity search越來越重要,並且通常最廣泛地用於應用程序,尤其是在雲環境中。SANN查詢是在加密的高維數據上進行安全相似性搜索以找打近似KNNs的基本要求。爲了解決這一問題,我們在高維歐幾里得空間中提出了一種RS-SANN算法。

一個新定義的BC樹數據索引結構是基於B+樹和類似的加密精心設計的,用於索引高維對象。BC樹在保持一致性的同時,實現了有效和高效的數據管理。精度達到滿意水平(平均1.10)。此外,我們還提出了一對競爭策略。一方面,爲了進一步提高結果的準確性,多指標策略採用BC森林對數據進行索引。精度平均提高10%。另一方面,爲了克服向客戶機傳輸候選數據時帶寬的限制,提出了基於多輪發布策略的增強恢復策略。它節省了大約95%的帶寬。

我們將我們提出的算法與其他三種最先進的解決方案進行了比較,包括無安全和安全意識的解決方案。我們對四個數據集進行了廣泛的實驗研究,包括現實和同步數據集,以評估RS-SANN。結果表明,本文提出的算法在效率和精度上均優於其他算法,具有一定的實際應用價值。實驗和理論研究證明,RS-SANN在加密數據的近似k近鄰的安全性和效率之間提供了更好的權衡。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章