本篇文章5424字,读完约14分钟

雷锋。(公开号码:雷锋。科技评论:上周,一篇关于在斯坦福鉴别同性恋的论文引起了轩然大波。

这篇利用深层神经网络识别同性恋的论文将发表在美国心理协会的《个性与社会心理学》杂志上,然后在上周突然流行起来。

我们面前有一张同性恋和异性恋的照片。本文提出的方法可以识别人脸的面部特征,然后从两张照片中选出更有可能是同性恋的一张。选择男性照片的正确率为81%,选择女性照片的正确率为71%。相比之下,人类的表现只有61%和54%,这并不比选择两者之一(50%的正确率)好多少。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

如果每个人都有多张照片,挑选同性恋者的正确率可以继续提高:在每人五张照片的情况下,从两个人中挑选同性恋者的正确率可以继续提高,男性为91%,女性为83%。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

(注意,上面提到的这些数字是auc,它不等于“识别准确率”,这将在后面详细解释)

如此明确的结果立即引起了国内外媒体和人们的热烈讨论。除了表达对隐私问题的震惊和担忧,有些人只是不喜欢这个结果,并向作者发送个人威胁电子邮件。作者还耐心地写了一封公开信,逐一回答各种意见。但在详细讨论这封公开信之前,让我们先回顾一下论文的主要内容。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

过去,世界各地的学者对人格是否会影响外貌进行了大量的讨论。近年来,一些研究提出妊娠期激素水平会影响胎儿的性取向(pht,产前激素理论),这已被广泛接受,似乎解释了性取向与面部发育之间的关系。此外,一般认为同性恋者比异性恋者对发现其他同性恋者更敏感,这也表明人们真的认为同性恋者和异性恋者会看起来不同,这使得他们更容易被具有相似特征(性取向)的人发现。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

那么,计算机或深度学习能找到同性恋和异性恋之间的区别吗?如果存在差异,这些差异是什么?作者对此进行了一些探索。

他们首先去美国约会网站寻找照片。约会网站上的人不必对性取向撒谎,是吗?因此,他们从36630名男性和38593名女性那里收集了30万张照片,其中50%是同性恋,50%是异性恋。在Defiance技术的face++的帮助下,去除了35326张不完整人脸、过小人脸和不面对摄像头的照片,满足了需求。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

找到照片后,我们必须设计模型。由于作者不是计算机专业的学生,他们首先直接选择了深度神经网络人脸识别模型vgg-face来提取高维人脸特征,该模型于2015年提出并得到广泛应用。vgg-face的初衷是识别和确认同一个人是否存在于不同的图像中,因此它对图像中的表情、背景和光照等因素不太敏感,这正是作者所需要的;另外,他们直接使用了260万张照片训练的vgg人脸模型,这样也可以避免自己训练模型造成的过拟合。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

在vgg-face中,照片将被转换为4096维向量,即4096个子项目分数。在使用奇异值分解(svd)将维数降低到500维后,作者将500维值作为500个自变量,并建立线性回归模型作为其预测分类器。所有照片的95%用于训练这个预测分类器,然后另5%用于验证测试。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果1

作者得到的第一个结果是文章开头的数据。同性恋者是从一张同性恋者和一张异性恋者的照片中选出的,男性的正确率为81%;女性照片的正确率为71%;当有5张照片时,男性的auc可以继续增加到91%,女性为83%。这表明在人的脸上有更多隐藏的信息,这些信息可能不会被人类自己感知和表达,但是这些信息是真实的。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

(雷锋。《科技评论》补充了流行科学:“auc”和“识别准确度”在一般意义上不能直接等同。auc的全称是曲线下面积,是指roc曲线下的面积。该值描述了样本中模型对阳性病例的评分高于阴性病例的概率。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

具体说明如下:在识别方法(线性回归模型)中,首先对样本进行评分,评分范围为0-1,然后根据设定的标准输出结果。由于人脸有很多细节,而且作者选择了很多自变量,模型的内部得分会有很大的波动。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

假设一个同性恋者A和一个异性恋者B是从那些已经确定了他们的性取向的人中选出的,模型可能认为A是同性恋的概率是0.4,而B是同性恋的概率是0.3;另一组同性恋者和异性恋者的得分分别为0.6和0.5。“识别准确度”和“auc”的配对如下:

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

可以看出,对于相同的模型和相同的评分能力,根据不同的标准,识别准确率可以有许多不同的值;在实践中,我们经常不能找到没有误判的标准。因此,“识别准确度”不是一个准确的评价标准。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

当某个分类出现的概率很小时,不能使用“识别精度”。假设一种罕见疾病的发病率为0.1%,那么指着街上来往的人说他们都生病了,可以达到99.9%的诊断准确率;然而,这个正确的诊断率对真正生病的病人没有帮助。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

在每组中选择正确的模型将显示更高的auc,即从同性恋和异性恋照片中正确地选出同性恋者,这不受上述标准和发生概率的影响。因此,较高的auc确实意味着模型的识别能力较强,但它并不直接等于识别精度。作者获得的“男性81%”和“女性71%”的auc并不意味着“确定是否是同性恋”的准确性如此之高。(

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果2

作者对高auc的结果不满意。既然这个模型可以找到同性恋和异性恋之间的区别,并把它们分开,那有什么区别呢?作者从每组中取了100张照片,生成了一张全面的脸,看看有什么不同。结果也很明显,请看下图

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

还有一个提取特征点的比较图

作者分析的结论是同性恋者的典型性别特征较少。根据生成的“平均脸”,男同性恋的下巴更窄,鼻子更长;女同性恋者下巴更宽。

除了脸型,其他五官也不一样。与异性恋相比,男同性恋的头发更少,肤色更浅,这与头发生长速度、清洁习惯和阳光有关;女同性恋者的眼妆较浅,头发颜色较深,穿着较为保守(从照片中可以看出领口较高),这降低了典型的性别特征。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

还有一些有趣的区别。一般来说,女人比男人更喜欢笑,但是女同性恋者比异性恋者笑得少。此外,在美国文化中,棒球帽通常给人一种更强烈的感觉,因此异性恋者在男性中戴的帽子更多,同性恋者在女性中戴的帽子更多(注意“普通脸”前额附近的阴影,作者实际上看到了用来证实这一点的照片)。这仍然是“同性恋具有较少的典型性别特征”的体现。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果3

为了从另一个角度验证“同性恋具有较少典型性别特征”的结论,作者在2015年用290万张我的个性照片训练了一个神经网络性别分类器。方法和以前一样,只是这次只判断性别。经过训练,让模型识别那些来自约会网站的照片,auc达到98%。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

作者分析了这个模型的识别结果,发现男同性恋的脸更女性化,而女同性恋的脸有更强的肌肉感。

结果4

“结果2”中的对比图表显示了同性恋和异性恋面孔之间的差异。那么,预测面部有特定特征的性取向的结果是什么呢?作者用特征点计算人脸特征的大小,然后为不同的特征训练模型,试图找出同性恋者。这里的每个人都用了五张照片。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果如下图所示,男性仅通过面部轮廓就能达到75%的auc,其他特征的auc也非常高且非常显著;女人不那么明显。五官的特征点都得到了利用,男性的auc上升到了85%,女性的AUC也达到了70%。然而,由原始vgg-face模型输出的4096维向量具有最完整的信息,这并不限于五官的特征。基于它的auc最高为91%和83%。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

先前的结果强烈表明,从图像中可以找到足够的线索来推断一个人的性取向。然而,作者们也开始担心,由于所使用的照片来自约会网站,这些照片中的性吸引力会被放大吗?这会让同性恋和异性恋看起来不同吗?作者又做了两个实验来验证。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果5

当然,最快的方法是让人们去判断。从亚马逊众包平台amt中,作者发现有几个人完成了1000多项任务,接受了98%以上的评判,可以认为他们的结果是高度可信的;同样,对于随机选择的一张同性恋照片和一张异性恋照片,他们应该挑选出一张同性恋照片。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

人体结果对男性的正确率为61%,对女性的正确率为54%,这与以往研究中获得的55%~65%的准确率是一致的。这一结果表明,论文中使用的婚恋网站照片没有额外的吸引力;此外,判断男性的正确率更高,这与神经网络的性能一致。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

结果6

该是测试模型泛化能力的时候了,从其他来源的照片中得到的类似结果也可以证明该方法和原始图像的有效性。他们从“我的个性”的facebook用户照片集中找到了6075名男同性恋者的14438张照片,使用上述相同方法后获得了74%的auc。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

他们还进行了反向验证,让模型判断一个人是来自约会网站还是脸书。该模型的auc仅为53%。这也表明该模型对人脸环境不敏感,只提取人脸本身的信息。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

对结果的讨论

面对上述结果,作者在论文中也表达了自己的观点:

这一系列实验的结果表明,人脸包含了大量的信息,其中一些信息是人类无法清晰感知和表达的,但深层学习模型可以,这成为判断其是否是同性恋的基础

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

根据深度学习的结果,面部特征的差异也符合解释同性恋形成的现有理论

寻找性取向与面部特征之间的关系,可以为研究人类的一些社会活动和自然特征带来更多的研究对象

同时,非常重要的是,他们不希望读者误解论文中的结论

同性恋者的“普通面孔”中典型的性别特征较少,这并不意味着所有的同性恋者都是这样的。看起来很异性恋但实际上是同性恋的人是不可避免的。在这篇论文中,我们只发现了一些在“普通面孔”上更为常见和明显的微小特征。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

深度学习可以有效地识别同性恋者,但这并不意味着人类可以有效地进行判断。本文的结果表明,即使深度学习取得了良好的效果,人类的判断仍然是不准确的。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

此外,不要将论文中用来显示结果的auc与一般意义上的“识别准确率”相混淆(这位读者已经说过了,但还没有区分出来,可以再读一遍)

在文章的最后,作者也表达了他们对隐私的关注:在过去,一些研究可以通过一个人在社交媒体上的行为来判断他/她是否是同性恋;也许这些行为可以隐藏或删除,但是人脸的特征不容易改变,很难隐藏。如今,到处都有越来越多的高清监控摄像头。人们的照片越来越多地存储在社交媒体、云服务提供商和政府数据库中,社交媒体上的照片经常可以被任何人看到。这样,如果有人建立了一个准确的同性恋身份识别系统并投入使用,那将成为一场灾难。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

作者之所以选择公开他们的研究成果,是为了在信息时代给公众敲响警钟;目前,企业和政府已经联合设计和部署了基于人脸的检测系统。因此,迫切需要提醒政策制定者、公众和同性恋群体这种风险的存在。作者们都使用现成的方法和广泛使用的数据,这不会给那些想开发类似系统的人带来任何额外的帮助,但表明简单的方法也可能对隐私问题构成巨大威胁。他们希望他们的发现能提醒公众和政策制定者考虑如何通过技术和政策来降低这种潜在的风险。只有当受过良好教育和包容的人们团结起来为平等权利做出贡献时,“后隐私时代”才能成为一个更安全、更适宜居住的环境。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

激烈的反应和作者的声音这篇论文被美国媒体报道,然后被美国公众知晓,这立即引起了许多讨论甚至反对的声音。许多人给作者写电子邮件,说他们“绝对错了,这是伪科学”,甚至有些人写了这样激烈的话,“为什么你不死。”作者还耐心地写了一封公开信,回答了收到的各种询问。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

首先,作者重申,他们的目的不是制造一种侵犯他人隐私的工具,而是要验证政府和企业大规模应用的现有技术是否会对某些人群的隐私构成威胁。不幸的是,他们发现他们会。即使那些反对这项研究的人也不应该因为不喜欢研究内容而否认这种威胁的存在。在论文发表之前,作者们担心这项研究会引起注意,并花了大量时间思考这种研究是否会给表面带来潜在的威胁。然而,他们最终决定,只有让人们清楚地意识到这些威胁,他们才能提醒lgtbq团体注意这些威胁,提醒公众注意这些威胁,提醒数字服务提供商更好地保护人们的隐私,并提醒决策者做出反应。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

同时,作者还提醒读者正确理解文本中数据的含义,而auc不等于系统识别的正确率(如上所述)。因此,读者不应该太担心这些结果的直接影响。

许多人质疑研究结果的正确性,作者也坦率地说,由于收集数据的困难,他们的研究仅限于白人,所以白人的特征可能不适用于其他种族。然而,根据这些研究结果,不难认为在其他种族中可能存在一些生物的、发展的和文化的因素,从而导致其他种族中同性恋者和异性恋者之间的差异。然而,对于“所使用的照片来自约会网站,因此它们是不准确的”、“一般认为面部特征和个性特征之间没有联系”和“你的算法一定受到一些其他混乱因素的影响”等其他问题,作者已经通过论文中的重复和交叉对比实验(见本文介绍的结果1至6)证明了结果的有效性,并且他们也希望怀疑论者在提问之前能够仔细阅读论文中的实验和结果。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

一些激进的人写下咒骂的话,比如“你为什么不去死?”在他们的电子邮件中,作者给出了一个平静的回答。对于这样的人,作者首先希望他们能耐心地阅读这篇论文。“不喜欢这样的研究结果”并不意味着这样的结果是不合理的;此外,这样的结果可以有效地提醒大家更加重视隐私保护和相关政策的制定。而且,这项研究不会直接改变一个人的生活,但对全人类来说,这种威胁是真实的。

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

他们还在推特上列出了一个简短而有力的回复:“如果你发现一个隐藏在流行技术中的威胁,你会保守秘密,还是会研究它,让同行审查,并发出警告?”

「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

论文地址:osf.io/zn79k/

公开信地址:docs . Google/document/d/11 ogz 1ke 3wk 9 E3 btoedfuoquuasmr 8 ao2 fw H3 avke 6 u/edit #

雷锋。技术评论汇编

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:「AI识别的是同性恋,警醒的是所有人的隐私安全」,斯坦福作者回应论文争议

地址:http://www.hcsbodzyz.com/hcxw/7274.html