本篇文章7981字,读完约20分钟
雷锋。(公开号码:雷锋。本文介绍了学术界和工业界在保护用户隐私方面所做的努力,包括K-匿名、L-多样性、t-贴近度和ε-差别隐私,并分析了它们的优缺点。
数据与隐私
在大数据时代,数据已经成为科学研究的基石。在享受推荐算法、语音识别、图像识别、无人驾驶汽车等智能技术带来的便利的同时,数据扮演着驾驶算法的角色,不断优化和迭代。在科学研究、产品开发和数据公开的过程中,算法需要收集和使用用户数据,在这个过程中数据不可避免地会被暴露出来。从历史上看,公共数据暴露用户隐私的案例很多。
美国在线是一家美国互联网服务公司,也是美国最大的互联网提供商之一。2006年8月,为了学术研究,美国在线发布了匿名搜索记录,包括65万用户数据,总计2000万条搜索记录。在这些数据中,用户的名字被匿名的ID所取代,但是通过这些搜索记录,纽约时报为ID为4417749的用户在现实世界中找到了相应的人。在id 4417749的搜索记录中,有关于“60岁的人”、“里尔本的风景”和搜索词“阿诺德”的问题。根据上述数据,《纽约时报》发现,在利尔伯恩只有14个人名叫阿诺德。最后,通过与这14个人的直接接触,证实了id 4417749是一位名叫塞尔玛·阿诺德的62岁的祖母。最后,美国在线紧急撤回数据并发表声明道歉,但为时已晚。Aol因侵犯隐私被起诉,受影响用户的总赔偿高达500万美元。
也是在2006年,美国最大的电影和电视公司之一网飞举办了一场网飞奖竞赛,要求用户的电影收视率要根据公共数据进行推测。网飞从数据中删除了识别用户的唯一信息,并认为这可以保证用户的隐私。然而,在2007年,德克萨斯大学奥斯汀分校的两名研究人员表示,通过将网飞公布的数据与imdb(互联网电影数据库)网站上公布的记录联系起来,匿名用户就可以被识别出来。三年后的2010年,网飞最终宣布将出于隐私原因停止竞争,并被罚款总计900万美元。
近年来,各大公司不断关注用户的隐私和安全。例如,苹果公司在2016年6月的wwdc会议上提出了一项差别隐私技术。苹果公司声称它可以通过数据计算出用户群体的行为模式,但是它不能得到个人用户的数据。那么差别隐私技术是如何工作的呢?
在大数据时代,我们如何保证自己的隐私?要回答这个问题,我们必须首先知道什么是隐私。
什么是隐私?我们经常谈论隐私泄露和隐私保护,那么什么是隐私呢?例如,住在海淀区五道口的小明经常在网上购买电子产品。小明的名字、购买偏好和住址被认为是隐私吗?如果一个购物网站统计了用户的购物偏好,并公开了一些数据,而这些公开数据显示北京海淀区五道口的用户更喜欢购买电子产品,小明的隐私是否泄露了?要理解隐私保护,我们应该首先讨论什么是隐私。
至于隐私一词,科学研究中普遍接受的定义是“单个用户的某些属性”,只要符合这一定义,就可以被视为隐私。当我们提到“隐私”时,我们更强调“个人用户”。那么,一组用户的某些属性就可以被认为不是隐私。让我们以刚才的例子为例。对于小明这个单身用户来说,“购买偏好”和“住址”都是隐私。如果公开数据说小明,住在五道口,喜欢购买电子产品,这显然是一个隐私泄露。然而,如果数据只包含一个地区的人们的购买偏好,就不会泄露用户隐私。如果我们都知道小明住在海淀区五道口,小明喜欢买这个产品吗?这是隐私泄露吗?答案是否定的,因为每个人都只是通过这个趋势进行推测,而数据并没有显示小明一定喜欢购买电子产品。
因此,从隐私保护的角度来看,隐私是个人用户的一个概念。披露群体用户的信息不是隐私泄露,但如果个人信息可以从数据中准确推断出来,这就是隐私泄露。
隐私保护的方法从信息时代开始,隐私保护的研究也开始了。随着数据的不断增长,人们越来越关注隐私。我们讨论隐私保护时有两种情况。
第一,公司为学术研究和数据交换开放用户数据,学术机构或个人可以向数据库发起查询请求。当公司返回相应的数据时,他们需要确保用户的隐私。
在第二种情况下,公司作为服务提供商,积极收集用户数据以提高服务质量,在客户端收集的数据也需要确保隐私。学术界提出了多种保护隐私的方法和度量隐私是否被泄露的工具,如k-匿名、l-多样性、t-封闭性、ε-可微隐私、同态加密和零知识证明等。这些方法首先从直观的角度衡量公共数据的隐私性,然后使用密码学、统计学等工具来确保数据的隐私性。
让我们逐一解释这四种隐私保护方法:K-匿名K-匿名是1998年由latanya sweeney和pierangela samarati提出的一种数据匿名方法。
让我们先看看下表:
我们将表中的公共属性分为以下三类:
-关键属性:通常,它们是个人的独特标志,如姓名、地址、电话号码等。,发布数据时需要删除。
准标识符:诸如邮政编码、年龄、生日、性别等标签。并不是唯一的,但是可以帮助研究人员关联相关数据。
敏感属性:敏感数据,如购买偏好、工资等。研究人员最关心的问题通常是直接披露。
简而言之,k-匿名的目的是确保公共数据中包含的至少k-1条个人信息不能被其他个人信息识别。也就是说,公共数据中的任何准标识符信息,同一组合至少需要出现k次。
例如,假设公共数据受2匿名保护。如果攻击者想要确认一个人的敏感信息(购买偏好),通过询问他的年龄、邮政编码和性别,攻击者将发现数据中至少有两个人具有相同的年龄、邮政编码和性别。这样,攻击者就无法区分这两个数据中的哪一个是小明,从而确保小明的隐私不会被泄露。
下表是2-匿名信息:
k-匿名有两种主要方法,一种是删除相应的数据列并用星号(*)替换它们。另一种方法是通过归纳使其难以区分,例如,将年龄数归纳为一个年龄组。对于像邮政编码这样的数据,如果所有的邮政编码都被删除,研究人员将会丢失很多有意义的信息,所以他们可以选择删除最后一个数字。
从这张表中,即使我们知道小明是男性,24岁,邮政编码是100083,我们仍然不能知道小明的购买偏好。然而,研究者仍然可以根据这些数据统计出一些有意义的结果,这不仅考虑了个人隐私,也为研究提供了有效的数据。
匿名可以保证以下三点:
1.攻击者无法知道某人是否在公共数据中
2.给定一个人,攻击者无法确认他是否具有敏感属性
3.攻击者无法确认某条数据对应于哪个人(这个假设是,除了准标识符信息,攻击者对其他数据一无所知。例如,如果所有用户的偏好都是购买电子产品,那么匿名不能保证隐私不被泄露)
攻击方法非排序匹配攻击:当发布的数据记录与原始记录的顺序相同时,攻击者可以猜测匿名记录属于谁。例如,如果攻击者知道小明在数据上领先于小白,他可以确认小明的购买偏好是电子产品,小白是家用电器。解决方案也非常简单,在公开数据之前,可以通过破坏原始数据的顺序来避免这种攻击。
互补发布攻击:如果有多种类型的数据要公开,如果它们的k-匿名方法不同,攻击者可以通过关联多种类型的数据来猜测用户信息。
此外,如果敏感属性在同一个四标识符中缺乏多样性,或者攻击者有其他背景知识,k-匿名不能避免隐私泄露。
我们知道李雷的信息,表中有两个对应的数据,但是他们的购买偏好是电子产品。由于这种敏感属性缺乏多样性,即使是2匿名的匿名数据,我们仍然可以获得李雷的敏感信息。
如果我们知道小紫的信息,知道她不喜欢买护肤品,那么从表中我们仍然可以确认小紫的购买偏好是厨房用具。
通过上面的例子,我们引入了多样性的概念。简而言之,在公共数据中,对于那些具有相同准标识符的数据,敏感属性必须具有多样性,以确保用户的隐私不能通过背景知识等方法来推断。
L-persity确保同一类型的数据中至少有l个具有不同内容的敏感属性。
例如,在上面的例子中,有10个相同类型的数据,其中8个购买偏好是电子产品,另外两个是书籍和家用电器。在本例中,发布的数据满足3-多样性的属性。
除了上面介绍的l-多样性的简单定义之外,还有l-多样性的其他版本,它们引入了其他统计方法。例如:
基于概率的多样性:一个类型中频率最高的值的概率不超过1/l..
基于含水量的多样性:一个类型中敏感数据分布的含水量至少为对数(l)。
递归(c,l)-多样性:简单地说,就是确保最频繁出现的值的频率不会太高。
l-多样性也有其局限性:
敏感属性的本质使得即使保证了一定概率的多样性,也很容易暴露隐私。例如,在医院公布的艾滋病数据中,敏感属性为“艾滋病阳性”(发生概率为1%)和“艾滋病阴性”(发生概率为99%)。这两个值具有不同的灵敏度和不同的结果。
在某些情况下,l-多样性是没有意义的:例如,艾滋病数据的例子只包含两个不同的值,所以保证2-多样性是没有意义的。
l-多样性很难实现:例如,如果我们想保证10000个数据中的2-多样性,我们可能最多需要10000* 0.01 = 100个相同的类型。此时,可能很难通过之前介绍的k-匿名方法来实现。
偏斜攻击:如果我们想确保在同一类数据中出现“艾滋病毒阳性”和“艾滋病毒阴性”的概率是相同的,尽管我们保证多样性,但泄露我们隐私的可能性会增加。因为l-persity没有考虑敏感属性的总体分布。
l-多样性不考虑敏感属性的语义。例如,在下面的示例中,我们通过李磊的信息将来自公共数据的两条信息关联起来,并且我们可以从这两条信息中得出两个结论。首先,李雷的工资相对较低;第二,李雷喜欢购买电子电气相关产品。
t-贴近度
上述最后一个问题引出了T-闭包的概念,即确保敏感信息的分布接近于同一类标识符类型组中的整个数据的分布,并且不超过阈值T..
如果刚才的数据保证了T-闭包属性,那么工资的分布与李雷的信息查询结果中的总体分布相似,很难推断出李雷的工资水平。
最后,如果k-匿名性、l-多样性和t-闭包得到保证,隐私不会被泄露吗?答案不是这样,让我们看下面的例子:
在这个例子中,我们保证2-匿名性、2-多样性、t-接近性、工资和购买偏好是敏感属性。攻击者通过李磊的个人信息找到了四条数据,并且知道李磊有很多书,所以很容易就找到了李磊的四条数据中的一条,造成了隐私泄露。一些读者可能会怀疑,通过背景知识攻击k-匿名的前提是否是假设我们知道准标识符。事实并非如此。针对敏感属性的背景攻击也适用于k-匿名,因此无论什么属性都是有保证的,隐私泄露仍然难以避免。
除了我们之前介绍的针对k-匿名、l-多样性和t-封闭性三种隐私保护方法的攻击之外,差分隐私也被称为差分密码分析。例如,购物公司发布了购物偏好数据,称我们有100个人的购物偏好数据,其中10个人更喜欢购买汽车用品,90个人更喜欢购买电子产品。如果攻击者知道99%的人喜欢汽车产品还是电子产品,他就可以知道第100个人的购物偏好。这样,将公共数据与现有知识进行比较以推断个人隐私被称为差分密码分析。
2009年,微软研究院的辛西娅·德沃克斯(cynthia dwork)提出了差分隐私的概念,即防止差分密码分析。也就是说,尽管攻击者知道100个人的信息和99个人的信息,但他不能通过比较这两个信息来获得第100个人的信息。
简而言之,差异隐私意味着通过查询100条信息获得的结果与通过查询99条信息获得的结果相对一致,因此攻击者不能通过比较(差异)数据的差异来找出第100个人的信息。这种方法是为了增加随机性。如果查询100条记录和99条记录,输出相同值的概率是相同的,攻击者不能执行差分密码分析。此外,对于只有一个记录差异的两个数据集D和D(相邻数据集),它们得到相同结果的概率非常接近。请注意,不能保证概率是相同的。如果概率相同,数据需要完全随机化,所以披露数据没有意义。因此,我们需要尽可能接近,以确保隐私和可用性之间的平衡。
ε-差别隐私(ε-dp)可由以下定义表示:
其中m是对d的任意查询操作,给查询结果增加了一定的随机性,即给数据增加了噪声,在给两个数据集增加相同的随机噪声后,查询结果为c的概率比小于一个特定的数。这样,可以保证用户隐私泄露的概率具有数学上限。与传统的k-匿名相比,差别隐私使得隐私保护模型更加清晰。
我们用一个例子来解释差别隐私的定义:
在上图中,d1和d2是两个相邻的数据集,只有一条记录不一致。当攻击者查询“20-30岁之间有多少人更喜欢购买电子产品”时,这两个数据库的查询结果为100的概率分别为99%和98%,且两者之比小于某个数字。如果任何查询都能满足这个条件,我们可以说这个随机方法满足ε-差分隐私。因为d1和d2可以互换,更严格地说,它们的比值大于。
无论查询是什么,两个相邻数据库返回的结果总是相似的。
有四种方法可以实现不同的数据隐私:
输出结果转换
输入查询转换
中间值转换
采样和汇总数据
接下来,本文主要介绍了输出结果转换的方法。该方法主要针对查询结果为数值或数值向量,输出结果通过添加噪声达到ε-dp的情况。
输出结果转换:添加噪声
在差异隐私中,防止隐私泄露的重要因素是给查询结果添加噪声。对于数值查询结果,常用的方法是对结果进行数值转换。为了解释如何添加噪声,让我们先看下面的例子:
如果一个公司公开数据并提供一个查询数据的接口f(x),服务器将输出一个查询结果f(x)+不同查询x的噪声,并添加噪声以确保ε-差分隐私。
那么如何选择噪音呢?
在差分隐私法中,作者巧妙地利用了拉普拉斯分布的特点,找到了一种合适的噪声方法。对于数值或向量的查询输出,m(x)= f(x)+噪声。我们可以得出以下结论:
其中lap为拉普拉斯分布,gs代表全局灵敏度:
如需详细证明,请参阅关于差别隐私的相关文章。
有了这个结论,如果我们想要保证查询接口f(x)的ε-dp,我们只需要给查询结果添加lap(gs/e)噪声。
拉普拉斯分布及其概率密度函数如下:
(ε,δ)-差别隐私,(ε,δ)-dp
ε-dp是一种“严格”的隐私保护保证。在数据库中添加和删除数据时,所有查询的输出都保证是相似的。然而,(ε,δ)-dp在保证ε-dp的情况下允许一定概率的误差。例如,在(ε,δ)-dp的保护下,用户会有δ概率的隐私泄露。
基于这些概念,差分隐私也可以用于机器学习算法。常用的算法,如主成分分析、逻辑回归和支持向量机,都有相应的差分隐私算法。
差异隐私平衡了数据的实用性和隐私性,用户可以通过设置自己的隐私预算来调整数据的实用性和隐私性。然而,差别隐私并不是万能的,许多带噪声的算法需要应用于大量的数据集。此外,“隐私预算”的合理设置也是一个问题。这些是差别隐私面临的问题和挑战。此外,由于对“背景知识”的差别隐私要求太强,有必要对结果增加大量随机化,这导致数据的效用急剧下降。然而,差分隐私作为一种非常优雅的数学工具,是未来隐私保护研究的发展方向。差别隐私告诉人们匿名公共数据通过严格的数学证明可以保护用户多少隐私。
k-匿名和ε-差分隐私的关系我们分别介绍了k-匿名和ε-差分隐私。k-匿名相对容易理解和实践,差别隐私更像是在理论上证明隐私保护的边界。虽然这两种方法的分析角度完全不同,但却是密切相关的。普渡大学的李宁辉教授在《可证明的隐私数据匿名化:or,k-匿名遇到差分隐私》一文中详细分析了K-匿名和ε-差分隐私之间的关系。本文证明了当k-匿名性被适当使用时,(ε,δ)-可微性可以满足某些条件。同时,提出了k-匿名的一种变型:β-采样+数据无关泛化+k-抑制(k,β)-SDGS,通过k-匿名变型可以满足差分隐私。利用差分隐私工具,我们可以准确地度量前人提出的k-匿名性,这在理论研究中具有重要意义。
在实际应用中使用差别隐私还有很多问题需要考虑。当引入差别隐私时,我们假设所有的查询操作都由一个存储用户原始数据的可信数据库来处理。如果数据库受到攻击,包含用户隐私的原始数据将会泄露。
如果你不收集用户的原始数据,先在客户端做差分隐私,然后把它发送到服务器,这个问题就解决了。最近,谷歌率先使用rappor系统在chrome浏览器上收集用户使用数据。Rappor基于“随机响应”的方法保护用户的原始数据不被泄露。随机响应的过程如下:
当用户需要报告个人数据时,首先掷硬币决定是否报告真实数据。如果是肯定的,报告真实的数据。如果不是,报告一个随机数据,然后“掷硬币”来确定随机数据的内容。
在服务器收到所有数据后,因为它知道掷硬币的概率是正的,所以服务器可以判断返回的数据是正确的概率。
这种“随机响应”的方法在理论上也被证明服从ε-微分隐私。对于用户来说,隐私数据在上报给服务器之前已经添加了噪声,这是有一定保证的。对于公司来说,也可以收集有效的数据。
Rappor使用“随机响应”的方法来克服以前只能回答简单查询语句的限制,现在它可以报告包括字符串在内的更复杂的答案。Rappor在报告字符串信息时使用布隆过滤器算法将字符串散列到一个数组中,然后向服务器添加噪声。布隆过滤器不需要存储元素本身,并且可以用于检索元素是否在集合中。通过使用这种方法,可以将噪声添加到字符串数据中,以保护用户的隐私。
在2016年的世界开发者大会(wwdc)上,苹果公司还宣布使用差别隐私来收集用户数据。虽然苹果没有透露具体细节,但我们可以从官方描述中推断出,苹果也在客户端使用了匿名的方法,然后将其传输到服务器。
差异化是统计和数据分析领域的一个研究课题,它使用了shash、子采样和噪声注入技术...众包学习,同时将个人用户的数据完全保密。苹果公司一直在这个领域做一些非常重要的工作,以使差别隐私能够大规模部署。
我们刚才介绍的谷歌和苹果的模式是在本地进行差别隐私保护,然后向服务器报告。我们称这种方法为局部模式。当报告的数据可以相互关联时,这种差别隐私方法仍然存在隐私泄露。谷歌的rappor解决了同一数据的多份报告的隐私泄露问题,但并没有解决相关数据的多份报告后的隐私泄露问题。苹果没有对此问题给出详细的解释。
除了谷歌和苹果在内部产品中使用差别隐私方法,哈佛大学还发布了一个名为psi(ψψ)的项目,它提供了一个方便的差别隐私工具。通过上传数据和调整差别隐私的参数,用户可以获得满足差别隐私的数据集。
总之,本文介绍了学术界和工业界为保护用户隐私所做的努力。首先,我们引入了K匿名,即通过转换私有数据,我们可以保证具有相同特征的用户在数据库中出现至少K次。然后,为了防止攻击者通过私有数据的背景知识推断用户身份,提出了l-多样性来保证具有相同特征的用户数量大于l。此外,我们还讨论了t-闭包。最后,我们详细介绍了差别隐私的概念以及如何在实际应用中使用差别隐私。
从最初的k-匿名、l-多样性、t-闭包到ε-差分隐私,目的不仅是为了保证用户的个人隐私,也是为了给实际应用和研究提供有价值的数据。在大数据时代,我们希望公司能够在保护用户隐私的同时提供更好的数据服务。这是法律的要求,也是证券业的追求。我们相信隐私保护技术将会越来越受到重视,并从理论上迅速投入到实际的工业应用中。
参考article-cis.upenn.edu/~·阿罗斯/论文/私人书籍
-cs . CMU . edu/~ yuxingw/docs/differential % 20 privacy . pdf
-blog .密文工程/2016/06/15/什么是差异隐私/
-铬/开发商/设计-文件/rapper
-static . googleuser content/media/research . Google/en/us/pubs/archive/42852 . pdf
-可证明的私人数据匿名化:或者,k-匿名满足不同的隐私
雷锋的特别贡献。严禁擅自转载。详情请参考转载说明。
标题:大数据时代,用户的隐私如何守护
地址:http://www.hcsbodzyz.com/hcxw/10586.html