本篇文章3322字,读完约8分钟
雷锋的《人工智能科技评论》获悉,由清华大学信息科学与技术联合实验室、智能技术与系统国家重点实验室、生物智能计算研究中心和清华大学计算机科学与技术研究所联合发表的论文《利用拮抗实例提高深层神经网络的性能》,探索了深层神经网络的内部结构,提出了一种使人类能够监督网络生成和网络错误定位的方法。
作者包括董彭颖、苏航、朱军和范豹。
原创链接:arxiv/pdf/1708.05493.pdf,雷锋编译。(公开号码:雷锋。com)。
深层神经网络在语音识别、图像分类、目标检测等领域有着前所未有的性能。然而,dnn的内部结构和学习产生的参数一直是学者们的黑箱,最初的网络仍然可以理解,但是它们越深,就越令人费解。在许多情况下,由于人类认知的局限性,包括神经网络如何判断和行动,深度神经网络的应用范围是有限的,特别是在一些安全性要求很高的应用中,如医院和自主驾驶。研究者需要了解判断训练生成的网络的理论基础,以便进一步理解、验证、修改和信任学习模型,并纠正其存在的和潜在的问题。因此,开发一种算法来深入分析生成的神经网络是非常重要的。在这方面,已经进行了许多研究。学者们通过各种方式窥探机器产生的深层神经网络,包括语义和图像。例如,学者们已经发现,在基于最大化或多梯度的算法中,卷积层中的神经元可以被视为对象/局部鉴别器。然而,这些尝试大多是基于特定的数据库(如imagenet、place),而且大部分的工作量都被用作神经网络的基本理论解释,很少有人会关注dnns错误的原因。
有许多方法可以提高神经网络的性能。本文重点分析了dnn在面对不规则情况(如对抗性情况)时的行为,并通过跟踪输出特征说明了神经网络的预测原理。特别是,通过使用对抗性实例,作者比较了以往的研究结论,发现该方法可以获得更好的神经网络解释性能。通过使用“恶意的”对抗图片,dnn可以产生“错误的”预测结果。将这种故意“误导”的结果与真实的图片结果进行比较,可以从不同的结果中探究dnns的工作原理,不仅可以分析dnns如何做出正确的判断,还可以了解dnns出错的原因,最终在一定程度上了解dnns的机理。使用对立图像而不是真实图像来做出“错误”预测的原因是,使用真实图像所导致的错误是可以容忍的。例如,斑猫和虎猫的错误分类结果在视觉和语义上比斑猫和校车更容易容忍。因此,使用完全“不同”的对立图片可以更好、更直观地辨别和理解dnn误判的来源。
在回顾了雷锋的人工智能技术之后,我了解到这篇论文有以下几个关键问题:
拮抗数据库为了更好地研究dnns,作者建立了一套拮抗数据集。利用ilsvrc 2012验证数据库对10幅图片进行了不同的标注,最终形成了50万张对抗性验证数据库。如图1(a)所示,使用集成的优化攻击算法来生成更通用的对抗图片,这些图片具有很高的可移植性,可以在其他模型中使用。
虚拟物体/部分和不一致视觉表示的检测器作者已经实现了几种基本的体系结构,包括alexnet、vgg、resnet,并且使用了真实图片并生成了对立图片。当输入不同的图片时,人工监测神经元的反应。同时,对大量的视觉概念进行了比较和评价。结果非常有趣:(1)当输入对抗图像时,真实图像中高语义神经元的表达是不同的;从这个结果中,我们可以得出结论,dnn中的神经元并不能真正检测到语义对象,而只能对语义对象作出重复的辨别。这与以前的研究相反。(2)深度视觉中的表示不是视觉概念的鲁棒分布式编码,因为尽管视觉上相似,但对立图片与真实图片在很大程度上是不一致的。见图1(a)。
使用对立图片可以提高dnn的性能。以往的研究已经证明,对抗性训练可以提高深层神经网络的鲁棒性。在本文中,作者通过引入对立图片来提高dnn的性能。从结果可以看出,对抗画面的结果与真实画面的结果非常相似。这一过程鼓励神经元学会抵抗对抗性干扰的干扰。因此,当首选对象/组件出现时,神经元总是被激活,但是当它们消失时,神经元就无效了,如图1(b)所示。通过这个过程,人类学家可以追踪神经元并推测模型的理论预测原理。同时,在这个过程中,人类学家也可以知道模型错误的时间和原因,如图1(c)所示。
方法利用imagenet数据库中的图像进行实验。首先,实验需要建立一组对立的图像,然后将这些图像应用到生成的模型中,然后比较模型的输出变化。Dnns易受外界干扰,基于这一特点,本文设计了一些方法,包括l-bfgs、快速梯度符号、深度欺骗等。但是这些方法通常是为特定的特征模型设计的。本文作者介绍了一种新的方法,该方法集成了优化攻击算法,具有较强的通用性。如下所示:
攻击alexnet,vgg-16和resnet-18型号。通过解决上述公式中的优化问题,采用了adam optimizer,它有5个步骤和10-20次迭代。结果,10幅图片被不同地标记,并且最终形成了50万个对抗验证数据库。综合优化攻击算法用于生成更通用的对抗图片,具有很高的可移植性,可以在其他模型中使用。
如图2所示,作者展示了一些图片结果。在第一行,真实图片中的神经元有一个清晰的语义解释或人类可以理解的视觉概念,而在第二行的对立图片中显示的语义解释是不可理解的。一般来说,神经元对对抗性图片的不同部分更敏感。在分析了神经元的表达后,真实图片中语义高的神经元在处理对抗图片(红盒子)时被充分激活。然而,在视觉表达中,我们可以看到真实图片和对抗性图片之间的明显区别。另一方面,对立图片中的相似部分显示不活动,这意味着神经元不能检测到对立图片中相应的对象/部分。例如,神经元147在真实图片中检测鸟头,但是在使用反攻击算法之后,许多其他对象被框在反攻击图片中,并且这些对象(红色框)被错误地分类为鸟。此外,在对立的图片中,网络不能正确地识别真正的鸟,这意味着dnns不能识别语义对象/部分,而只能将这些部分作为重复的识别瓦片来响应。
通过定量的理论分析,我们可以知道对抗性图片的结果与真实图片的结果并不一致。这意味着dnn的性能受到对抗干扰的严重影响,并且它不是一种用于视觉概念的健壮的分布式编码方法。在这种情况下,dnn的性能将导致在目标检测、视觉问答和视频处理中的不准确判断。那么dnns什么时候会出错呢?
上述实验中图片判断的不一致为辨别网络判断的错误时间提供了机会。使用条件高斯分布模型:p (φ (x) | y = I) = n (μ I,σ I),通过ilsvrc 2012训练数据库猜测dnns的错误时间,如下图所示:
通过对抗性训练,实现了dnns性能的提高。对抗训练有可能训练可读的dnns,因为它使模型能够学习更多关于输入空的robost概念,并且通过抑制干扰,生成的对抗图像与原始图像相似。为此,有必要引入一个一致的误差。当神经元从对抗噪声中恢复并出现首选对象/组件时,使用此错误可以使神经元始终保持活动状态。通过最小化对抗对象来训练dnns
然后使用快速梯度符号(fgs)方法生成对抗性图片:
通过这些步骤,我们最终可以发现dnns的可解释性得到了显著提高,同时保持了原有的性能(准确率降低了1%~4%)。结果如图7所示。
通过对抗训练,神经元可以检测图片中的视觉概念,而不仅仅是对小方块做出反应。该方法的优点是为深层神经网络预测提供了一种途径。根据这一过程,人类研究人员可以逐步探索dnn的工作原理,并整理出一组在决策过程中起决定性作用的神经元。
综上所述,本文利用集成优化算法和对抗图对生成的深层神经网络进行了重新检验。通过实验发现:(1)深层神经网络中的神经元并不能真正检测到语义对象,而只是对语义对象作出反应,形成重复的区分块;(2)深度视觉的表现不是视觉概念的鲁棒分布式编码,因为尽管视觉外观非常相似,但对抗性图片在很大程度上与真实图片不一致。这两点与以前的发现不同。为了使R&D人员更好地理解dnns的组成,作者提出了一种对抗训练方法,引入固定误差,从而赋予神经元以人类解释的概念。通过这种方法,人们可以追溯最终的结果,从而了解深层神经网络的生成过程,并得到误差的时间和原因。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
标题:清华朱军团队探索DNN内部架构,采用对抗性例子监督网络生成及错误
地址:http://www.hcsbodzyz.com/hcxw/6455.html