最近，老師給了一篇文章，說是還比較新奇，讓看看，其實和我的研究方向不是非常吻合，但是疫情在家也無聊，就花了幾天精看了下，寫得還是不錯的，內容也比較有意思，不過相對來說方法啥的比較簡單，對於學習下寫作和了解一個新方向還是不錯的。
本文主要對《Quantifying privacy vulnerability of individual mobility traces:A case study of license plate recognition data》這篇文章進行下解讀和介紹。

1.文章概述

文章主要是介紹了時空數據的隱私暴露與保護方面的內容。具體內容包括如下幾點：

k-anonymity and adversary model
Factors affecting anonymity
Two possible solutions

思路非常清晰，首先介紹k-anonymity model，說是model，其實是介紹下k-anonymity的概念，如何定量的描述數據的隱私保護的好壞。然後介紹下可能會影響隱私暴露風險大小的因素。最後提出兩個算法來對時空數據的發佈進行隱私保護。over。

2.k-anonymity and adversary model

文章裏當然說的非常複雜了，其實這個k-anonymity非常簡單，非常容易理解，通俗來說，就是給定一批數據，本文都以車牌識別數據爲例，給定數據的某一個record，至少有k輛車都有這個record的時空屬性。也就是說，通過這個record，我們至少無法判斷是k輛車的哪一輛。然後進一步又可以拓展，不光給定一個record，而是給定幾個records，形成一個records set，通過這個records set無法判斷至少是k輛車的哪一輛，這些用來標誌的record或者是records set就是quasi-identifier（準標記符）。這就是k-anonymity and adversary model這個section的全部內容了。文章中給出了下面這個例子來說明。

3.Factors affecting anonymity

這一部分主要是闡述了那些會影響隱私暴露風險的因素。

3.1Temporal granularity

首先是時間粒度，怎麼理解呢？raw LPR data 是精確到秒級別的，但是發佈數據時，無須發佈到這麼精確的時間粒度，可以以5min，10min···1h，2h，6h···爲時間單位做劃分，然後發佈這種粗時間粒度的數據，很容易知道時間粒度越粗糙，數據的時間信息越少，隱私保護就越強。文章中定量的做了下時間粒度對隱私保護的影響。結論和直觀感覺肯定是一致，下圖就是定量結果。

此外，這裏必須要講一下這個計算anonymity的算法。思想很簡單，對於一個quasi-identifier遍歷每輛車看這輛車中是否包含QI，是的話就把這輛車放到set裏去就行。

3.2Number of released vehicles

車輛數的多少對anonymity的影響，顯然，車越多，anonymity越好。100個人裏找一個人和1000個人裏找一個人，當然1000個人裏難找啦，也就是匿名性更好。

3.3Length of released time period

數據的時間跨度對anonymity影響不大，這個結論實際上與我們的直覺是不同的，首先看下result。

那麼出現這種現象的原因是什麼呢？作者做了進一步的實驗，發現絕大多數人的出行行爲是很穩定的，這就導致其實每一天人們不過是在做重複的行爲，因此時間跨度長和短對匿名性的影響就不是很大了，因爲2天的數據和1天的數據其實差不多，只不過是把1天的數據copy了一遍。

3.4Difference between local and non-local vehicles

本地車和外地車對anonymity的影響。這個分析也有點意思的。最後得到的結果是當取一個record作爲QI時，本地車的匿名性比外地車好，當取多個record作爲QI時，外地車的匿名性比本地車好。 看下結果。

造成這種現象的原因是隻用一個record作爲QI時，實際上匿名性就是同一個卡口拍攝到的車輛數，這時本地的卡口顯然會拍到更多的車輛，當然本地車輛的匿名性就好一些了。當用多個records作爲QI時，此時外地車的隱私性就更好些了，因爲外地車從外地進入廣州，基本都是要經過同一個道路的，於是這個local behiviour就相當一致，因此anonymity外地車就高些了。

3.5Quasi-identifier using continuous records

這個part是分析是否用連續的幾個records作爲QI對隱私性保護的影響。作者用下述算法來計算連續quasi-identifiers的anonymity的大小，和algorithm1基本一樣，不過之前是不要求連續的records。

結果顯示：連續性的records對隱私的保護會更好一點。這也很好理解，離散的records對行爲的刻畫顯然會更多些，連續的records的話，一個pattern group裏的vehicles行爲基本一樣，連續的records也是傾向於一樣的，結果圖如下：

4.Two possible solutions

4.1Suppression solution

這種方法就非常簡單直白了，把那些會導致很小的anonymity的records稱爲是sensitive records(SR)，然後把SR全刪掉就解決了。這樣做顯然可以提高anonymity.效果如下：（下面兩張圖的 $\varepsilon$ 指的是we define sensitive records as the record whose anonymity set is smaller than $\varepsilon$ and denote it as SR .）

4.2Generalization solution

作者提出的生成方案的算法如下所示，這種算法相對複雜些，但其實也很簡單。本質上是一種綜合權衡隱私保護和信息丟失的折中方法，由於權衡隱私保護和信息丟失是一種NP-HARD problem，因此每次都求出最優解是不可能的，只能採用下面這種方法。首先給出一個原始的時間劃分方案，然後迭代改進這個時間劃分方案，改進過程中要求anonymity滿足大於 $k_{min}$ ，並且在此基礎上信息損失要儘可能少，最後生成一種新的時間粒度劃分方式。

效果如下所示：下面這個圖是作者提出的方法和uniform time interval cloaking method相比較的結果，紅色的是作者的algorithm，這種方法並不是說隱私保護是最好的，而是在隱私保護和信息留存中得到一個相對比較好的解。下面這個圖也說明了這點，所有數據的隱私性較爲集中在[100-200]，隱私性達到一定程度後便不在進一步提升，而是利用香農熵的概念着重保護信息的不丟失。

5.Conclusion

Overall, this paper reveals the high risk of privacy disclosure of LPR data from a quantitative point of view. We introduce possible solutions to provide privacy protection for agencies publishing/sharing mobility trace data and discuss the privacy-and-utility tradeoff when releasing such data sets.

參考文獻
Gao, Jing, Lijun Sun, and Ming Cai. “Quantifying privacy vulnerability of individual mobility traces: a case study of license plate recognition data.” Transportation research part C: emerging technologies 104 (2019): 78-94.

閱讀Quantifying privacy vulnerability of individual mobility traces

1.文章概述

2.k-anonymity and adversary model

3.Factors affecting anonymity

3.1Temporal granularity

3.2Number of released vehicles

3.3Length of released time period

3.4Difference between local and non-local vehicles

3.5Quasi-identifier using continuous records

4.Two possible solutions

4.1Suppression solution

4.2Generalization solution

5.Conclusion

如何使用 JS 判斷用戶是否處於活躍狀態

通過HPA+CronHPA組合應對業務複雜彈性伸縮場景

❤️‍🔥 Solon Cloud Event 新的事務特性與應用

windows下遠程連接

cent os7文件系統和硬件

networkx pagerank

cent os7虛擬機下配置網絡及綁定雙網卡模式

時間序列模型之Arima Model

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結