閱讀Quantifying privacy vulnerability of individual mobility traces

最近,老師給了一篇文章,說是還比較新奇,讓看看,其實和我的研究方向不是非常吻合,但是疫情在家也無聊,就花了幾天精看了下,寫得還是不錯的,內容也比較有意思,不過相對來說方法啥的比較簡單,對於學習下寫作和了解一個新方向還是不錯的。
本文主要對《Quantifying privacy vulnerability of individual mobility traces:A case study of license plate recognition data》這篇文章進行下解讀和介紹。

1.文章概述

文章主要是介紹了時空數據的隱私暴露與保護方面的內容。具體內容包括如下幾點:

  1. k-anonymity and adversary model
  2. Factors affecting anonymity
  3. Two possible solutions

思路非常清晰,首先介紹k-anonymity model,說是model,其實是介紹下k-anonymity的概念,如何定量的描述數據的隱私保護的好壞。然後介紹下可能會影響隱私暴露風險大小的因素。最後提出兩個算法來對時空數據的發佈進行隱私保護。over。

2.k-anonymity and adversary model

文章裏當然說的非常複雜了,其實這個k-anonymity非常簡單,非常容易理解,通俗來說,就是給定一批數據,本文都以車牌識別數據爲例,給定數據的某一個record,至少有k輛車都有這個record的時空屬性。也就是說,通過這個record,我們至少無法判斷是k輛車的哪一輛。然後進一步又可以拓展,不光給定一個record,而是給定幾個records,形成一個records set,通過這個records set無法判斷至少是k輛車的哪一輛,這些用來標誌的record或者是records set就是quasi-identifier(準標記符)。這就是k-anonymity and adversary model這個section的全部內容了。文章中給出了下面這個例子來說明。
在這裏插入圖片描述
在這裏插入圖片描述

3.Factors affecting anonymity

這一部分主要是闡述了那些會影響隱私暴露風險的因素。

3.1Temporal granularity

首先是時間粒度,怎麼理解呢?raw LPR data 是精確到秒級別的,但是發佈數據時,無須發佈到這麼精確的時間粒度,可以以5min,10min···1h,2h,6h···爲時間單位做劃分,然後發佈這種粗時間粒度的數據,很容易知道時間粒度越粗糙,數據的時間信息越少,隱私保護就越強。文章中定量的做了下時間粒度對隱私保護的影響。結論和直觀感覺肯定是一致,下圖就是定量結果。
在這裏插入圖片描述
此外,這裏必須要講一下這個計算anonymity的算法。思想很簡單,對於一個quasi-identifier遍歷每輛車看這輛車中是否包含QI,是的話就把這輛車放到set裏去就行。
在這裏插入圖片描述

3.2Number of released vehicles

車輛數的多少對anonymity的影響,顯然,車越多,anonymity越好。100個人裏找一個人和1000個人裏找一個人,當然1000個人裏難找啦,也就是匿名性更好。
在這裏插入圖片描述

3.3Length of released time period

數據的時間跨度對anonymity影響不大,這個結論實際上與我們的直覺是不同的,首先看下result。
在這裏插入圖片描述
那麼出現這種現象的原因是什麼呢?作者做了進一步的實驗,發現絕大多數人的出行行爲是很穩定的,這就導致其實每一天人們不過是在做重複的行爲,因此時間跨度長和短對匿名性的影響就不是很大了,因爲2天的數據和1天的數據其實差不多,只不過是把1天的數據copy了一遍。

3.4Difference between local and non-local vehicles

本地車和外地車對anonymity的影響。這個分析也有點意思的。最後得到的結果是當取一個record作爲QI時,本地車的匿名性比外地車好,當取多個record作爲QI時,外地車的匿名性比本地車好。 看下結果。
在這裏插入圖片描述
造成這種現象的原因是隻用一個record作爲QI時,實際上匿名性就是同一個卡口拍攝到的車輛數,這時本地的卡口顯然會拍到更多的車輛,當然本地車輛的匿名性就好一些了。當用多個records作爲QI時,此時外地車的隱私性就更好些了,因爲外地車從外地進入廣州,基本都是要經過同一個道路的,於是這個local behiviour就相當一致,因此anonymity外地車就高些了。

3.5Quasi-identifier using continuous records

這個part是分析是否用連續的幾個records作爲QI對隱私性保護的影響。作者用下述算法來計算連續quasi-identifiers的anonymity的大小,和algorithm1基本一樣,不過之前是不要求連續的records。
在這裏插入圖片描述
結果顯示:連續性的records對隱私的保護會更好一點。這也很好理解,離散的records對行爲的刻畫顯然會更多些,連續的records的話,一個pattern group裏的vehicles行爲基本一樣,連續的records也是傾向於一樣的,結果圖如下:
在這裏插入圖片描述

4.Two possible solutions

4.1Suppression solution

這種方法就非常簡單直白了,把那些會導致很小的anonymity的records稱爲是sensitive records(SR),然後把SR全刪掉就解決了。這樣做顯然可以提高anonymity.效果如下:(下面兩張圖的ε\varepsilon指的是we define sensitive records as the record whose anonymity set is smaller than ε\varepsilon and denote it as SR .)
在這裏插入圖片描述
在這裏插入圖片描述

4.2Generalization solution

作者提出的生成方案的算法如下所示,這種算法相對複雜些,但其實也很簡單。本質上是一種綜合權衡隱私保護和信息丟失的折中方法,由於權衡隱私保護和信息丟失是一種NP-HARD problem,因此每次都求出最優解是不可能的,只能採用下面這種方法。首先給出一個原始的時間劃分方案,然後迭代改進這個時間劃分方案,改進過程中要求anonymity滿足大於kmink_{min},並且在此基礎上信息損失要儘可能少,最後生成一種新的時間粒度劃分方式。
在這裏插入圖片描述
效果如下所示:下面這個圖是作者提出的方法和uniform time interval cloaking method相比較的結果,紅色的是作者的algorithm,這種方法並不是說隱私保護是最好的,而是在隱私保護和信息留存中得到一個相對比較好的解。下面這個圖也說明了這點,所有數據的隱私性較爲集中在[100-200],隱私性達到一定程度後便不在進一步提升,而是利用香農熵的概念着重保護信息的不丟失。
在這裏插入圖片描述

5.Conclusion

Overall, this paper reveals the high risk of privacy disclosure of LPR data from a quantitative point of view. We introduce possible solutions to provide privacy protection for agencies publishing/sharing mobility trace data and discuss the privacy-and-utility tradeoff when releasing such data sets.

參考文獻
Gao, Jing, Lijun Sun, and Ming Cai. “Quantifying privacy vulnerability of individual mobility traces: a case study of license plate recognition data.” Transportation research part C: emerging technologies 104 (2019): 78-94.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章