差分隐私及应用

差分攻击

       差分攻击是通过比较分析有特定区别的明文在通过加密后的变化传播情况来攻击密码算法的。差分攻击是针对对称分组加密算法提出的攻击方法,看起来是最有效的攻击DES的方法(之所以说看起来,是因为差分攻击需要很大的空间复杂度,实际上可能不如野蛮攻击具有可操作性)。2000年以前,差分攻击就被证明对MD5的一次循环是有效的,但对全部4次循环似乎难以奏效。但是随着对MD5研究的进展,情况有了变化。

       2005年,王小云、来学嘉等使用差分攻击的思路,提出了对MD5差分的攻击方法。该方式提出了充分条件的概念,并列出了一系列的充分条件(大约有290个),如果这些充分条件都能得到满足,那么一定能产生碰撞。于是MD5的强抗碰撞性不能得到满足,即该攻击方法可以寻找消息对 ,使得 。不过,这一系列的充分条件很难同时满足。尽管王小云、来学嘉等进一步提出了消息修改算法,通过修改相应比特位的方法来达到满足这一系列充分条件,但是仍然有37条充分条件不能满足。这就意味着,从理论上来讲,该算法只需测试 条随机消息就可以找到完全满足充分条件的消息对 ,从而找到碰撞,即 。这是一个相当有意义的成果,意味着任何人在自己的笔记本上都可以计算出碰撞的消息对。当然,这里产生碰撞的消息对是随机的。

差分攻击案例

       2006年10月,Netflix提出一笔100万美元的奖金,作为将其推荐系统改进达10%的奖励。Netflix还发布了一个训练数据集供竞选开发者训练其系统。在发布此数据集时,Netflix提供了免责声明:为保护客户的隐私,可识别单个客户的所有个人信息已被删除,并且所有客户ID已用随机分配的ID[sic]替代。由于Netflix不是网络上唯一的电影评级门户网站,其他网站还有很多,包括IMDb。个人可以在IMDb上注册和评价电影,并且可以选择匿名化自己的详情。德克萨斯州大学奥斯汀分校的研究员Arvind Narayanan和Vitaly Shmatikov将Netflix匿名化的训练数据库与IMDb数据库(根据用户评价日期)相连,能够部分反匿名化Netflix的训练数据库,危及到部分用户的身份信息。

       卡内基梅隆大学的Latanya Sweeney的将匿名化的GIC数据库(包含每位患者的出生日期、性别和邮政编码)与选民登记记录相连后,可以找出马萨诸塞州州长的病历。

差分隐私

       差分隐私是Dwork在2006年针对统计数据库的隐私泄露问题提出的一种新的隐私定义。 在此定义下,对数据集的计算处理结果对于具体某个记录的变化是不敏感的,单个记录在数据集中或者不在数据集中,对计算结果的影响微乎其微。所以,一个记录因其加入到数据集中所产生的隐私泄露风险被控制在极小的、可接受的范围内,攻击者无法通过观察计算结果而获取准确的个体信息。

       差分隐私保护模型的思想源自于一个很朴素的观察:当数据集D中包含个体Alice 时,设对D进行任意查询操作f(例如计数、求和、平均值、中位数或其它范围查询等)所得到的结果为f(D),如果将Alice 的信息从D中删除后进行查询得到的结果仍然为f(D),则可以认为,Alice 的信息并没有因为被包含在数据集D中而产生额外的风险。差分隐私保护就是要保证任一个体在数据集中或者不在数据集中时,对最终发布的查询结果几乎没有影响。具体地说,设有两个几乎完全相同的数据集(两者的区别仅在于一个记录不同),分别对这两个数据集进行查询访问,同一查询在两个数据集上产生同一结果的概率的比值接近于1。

       具体的公式定义可以参见:https://baike.baidu.com/item/%E5%B7%AE%E5%88%86%E9%9A%90%E7%A7%81/22415732?noadapt=1

差分隐私在隐私保护领域的优势

       差分隐私保护模型假设攻击者能够获得除目标记录外所有其它记录的信息,这些信息的总和可以理解为攻击者所能掌握的最大背景知识。在这一最大背景知识假设下,差分隐私保护无需考虑攻击者所拥有的任何可能的背景知识,因为这些背景知识不可能提供比最大背景知识更丰富的信息。

        它建立在坚实的数学基础之上,对隐私保护进行了严格的定义并提供了量化评估方法,使得不同参数处理下的数据集所提供的隐私保护水平具有可比较性。因此,差分隐私理论迅速被业界认可,并逐渐成为隐私保护领域的一个研究热点。

差分隐私的弱点

        差分隐私的弱点其实很明显:由于对于背景知识的假设过于强,需要在查询结果中加入大量的随机化,导致数据的可用性急剧下降。特别对于那些复杂的查询,有时候随机化结果几乎掩盖了真实结果。这也是导致目前应用不多的一个原因。

差分隐私的应用

       差分隐私可以被应用于推荐系统、网络踪迹分析、运输信息保护、搜索日志保护等领域。

       Google利用本地化差分隐私保护技术从Chrome浏览器每天采集超过1400万用户行为统计数据。在2016年WWDC主题演讲中,苹果工程副总裁Craig Federighi宣布苹果使用本地化差分隐私技术来保护iOS/MacOS用户隐私。根据其官网披露的消息,苹果将该技术应用于Emoji、QuickType输入建议、查找提示等领域。例如,Count Mean Sketch算法(CMS)帮助苹果获得最受欢迎的Emoji表情用来进一步提升Emoji使用的用户体验。

参考

差分隐私保护及其应
 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章