本篇文章3948字,读完约10分钟
雷锋。(公开号码:雷锋。出版社:这篇文章的作者是洪颂。这篇文章最初发表在他的智虎专栏《智能单元》上。雷锋。com已被原作者授权。
1引言元学习或学会学习已成为继强化学习(以后仅称为元学习)之后的另一个重要研究分支。对于人工智能的理论研究,它提出
人工智能的趋势->机器学习->深层学习->深层强化学习->深层元学习。
这种发展的原因完全取决于目前人工智能的发展。在机器学习时代,复杂的分类问题是无效的,深度学习的出现已经基本解决了一对一映射的问题,比如图像分类,一个输入一个输出,因此出现了像alexnet这样的里程碑式的成就。但是如果输出对下一个输入有影响呢?也就是说,仅靠深度学习无法解决顺序决策问题。这时,强化学习强化学习出现了,深层强化学习+强化学习=深层强化学习强化学习。通过深度强化学习,序列决策已经取得了初步成果,因此,出现了像alphago这样的里程碑式成果。然而,新的问题又出现了。深度强化学习过于依赖大量的训练,需要精确的奖励。对于现实世界中的许多问题,比如机器人学习,没有好的回报,也没有无限期训练的方法。我该怎么办?这需要能够快速学习。人类快速学习的关键在于人类有学习的能力,并且能够充分利用过去的知识和经验来指导新任务的学习。因此,元学习成为一个需要克服的新方向。
同时,星际争霸2 deepmind在使用现有深度增强学习算法方面的失败表明,目前的深度增强学习算法很难处理空行动过于复杂的情况,尤其是需要真正的战略和战术思维的问题。这导致了一般人工智能的一个核心问题,那就是让人工智能学会思考和推理。在我看来,alphago在将棋盘特征输入到神经网络的过程中已经完成了思考,但毕竟Go 空的移动是非常有限的,也就是几百个选择,这比星际争霸2中几乎无限的选择要差得多(根据屏幕分辨率*鼠标和键盘按钮= 1920*1080*10,大约是20,000个。然而,在如此多的选择的情况下,人类仍然是好的。关键是人类已经通过某些策略和战术极大地减少了选择的范围(例如,当前的目标是创造人和我)。因此,如何让人工智能学会思考和构造策略是非常关键的。这个问题甚至比快速学习更困难,但是因为元学习有能力学会学习,它也可能学会思考。因此,元学习仍然是学习思考这些难题的潜在解决方案之一。
经过以上分析,但为了得出以下结论:
元学习是实现通用人工智能的关键!在这篇文章之前,该专栏已经发表了两篇与元学习相关的文章:
学会学习:让人工智能拥有核心价值观,实现快速学习
机器人革命和学会学习
以前,我们用学习这个名字来学习,是为了让更多的朋友了解这个概念。从这篇文章开始,我们将直接使用元学习这个名字(事实上,这只是因为这个名字看起来更专业和酷)
本文不会介绍元学习的概念,但是上面列出的两个博客已经解释过了。本文将与大家分享一些元学习的前沿研究进展,这可以说是一个百家争鸣的阶段。
2元学习的研究思路:为什么说元学习的研究是一百个学派?因为每个家庭的研究理念完全不同,所以这确实是一个用各种方法和实验大爆发智慧的阶段。
关于元学习的论文,我收集了:
song rotek/meta-learning-论文
在这里,我们主要分析过去一两年的发展,首先做一个分类,然后做一个简要的分析。
2.1基于内存的方法
基本思路:既然我们应该从过去的经验中学习,我们能通过给神经网络增加记忆来实现吗?
代表性文章:
[1] santoro,adam,bartunov,sergey,botvinick,matthew,wierstra,daan,lillicrap,timothy。具有记忆增强神经网络的元学习。《第33届国际机器学习会议录》,第1842-1850页,2016年。
[2] munkhdalai t,yu h. meta networks .arxiv预印本arxiv:1703.00837,2017。
以具有记忆增强神经网络的元学习为例,让我们看看他的网络结构:
我们可以看到,网络的输入也以最后一个y标签作为输入,并增加了外部存储器来存储最后一个X输入,这使得y标签和X在下一个输入被反向传播时建立连接成为可能,使得后续的X可以通过外部存储器获得相关的图像进行比较,从而达到更好的预测。
2.2基于预测梯度的方法
基本思路:既然元学习的目的是实现快速学习,而快速学习的关键点是神经网络的梯度应该准确快速的下降,那么神经网络能不能学习如何利用以前的任务来预测梯度,这样在面对新的任务时,只要梯度预测准确,学习就会更快?
代表性文章:
[1] andrychowicz,marcin,denil,misha,gomez,sergio,hoffman,matthew,pfau,david,schaul,tom和de freitas,nando。通过梯度下降学习。神经信息处理系统进展,第3981-3989页,2016年
本文的思路很奇怪,训练一个通用的神经网络来预测梯度,用二次方程的Return问题来训练,然后用这种方法得到的神经网络优化器优于adam和rmsprop,明显加快了训练速度。
2.3使用注意机制的方法
基本思想:通过利用过去的经验可以提高人们的注意力。例如,当我们看一张性感的照片时,我们自然会关注关键位置。那么,我们能不能利用以前的任务来训练一个注意力模型,以便面对新的任务并直接关注最重要的部分?
代表性文章:
[1] vinyals,oriol,blundell,charles,lillicrap,tim,wierstra,daan,et al . matching networks for one shot learning .神经信息处理系统进展,第3630-3638页,2016年。
本文构建了一个注意机制,即通过注意的叠加得到最终的标签判断:
注意力a由g和F获得..基本目的是通过使用现有的任务来训练一个好的注意力模型。
2.4学习lstm方法
基本思想:lstm内部更新非常类似于梯度下降更新。因此,lstm结构可以用来训练神经网络更新机制,输入当前网络参数并直接输出新的更新参数吗?这个想法很聪明。
代表性文章:
[1] ravi,sachin and larochelle,hugo。优化作为少量学习的模型。参加2017年国际学习表征会议。
本文的核心思想是以下段落:
如何将lstm更新与梯度下降联系起来是一个更值得思考的问题。
2.5学习者自主学习的元学习方法
基本思想:既然元学习可以用于监督学习,那么可以做些什么来提高学习效果呢?可以通过增加一些外部信息的输入来实现吗,比如奖励和以前的行为?
代表性文章:
[1] wang j x,kurth-nelson z,tirumala d,et al . learning to refugrade learning .arxiv预印本arxiv:1611.05763,2016。
[2] y. duan,j. schulman,x. chen,p. bartlett,i. sutskever和p. abbeel。rl2:通过慢速强化学习的快速强化学习。技术报告,加州大学伯克利分校和openai,2016年。
这两篇文章有相同的想法,即增加额外的奖励输入和先前的动作,从而迫使神经网络学习一些任务级信息:
2.6通过训练一个好的基础模型方法,并应用于监督学习和增强学习的同时
基本思想:以前的方法只能局限于监督或加强学习。你能做一个更一般的吗?学习一个比微调更好的基础模型有可能吗?
代表性文章:
[1] finn,c .,abbeel,p .,& levine,s. (2017)。与模型无关的元学习,用于深度网络的快速适应。arxiv预印本arxiv:1703.03400。
本文的基本思想是同时启动多个任务,然后得到不同任务的合成梯度方向进行更新,从而学习一个共同的最佳基。
2.7波网的使用方法
基本思想:wavenet的网络每次都使用以前的数据,那么我们可以复制wavenet的方式来实现元学习吗?就是充分利用过去的数据。
代表性文章:
[1] mishra n,rohaninejad m,chen x,等.时间卷积元学习.arxiv预印本arxiv:1707.03141,2017。
它是最先进的omniglot,mini imagenet图像识别,直接使用以前的历史数据。
2.8预测损失的方法
基本思想:为了使学习速度更快,除了更好的梯度,如果有更好的损失,学习速度会更快。因此,我们能建立一个模型来学习如何利用以前的任务来预测损失吗?
代表性文章:
[1] flood sung,zhang l,xiang t,hospedales t,et al . learning to learning:meta-criteria networks for sample effective learning .arxiv预印本arxiv:1706.09529,2017。
本文构建了一个元评价网络(包括元价值网络和任务-行动者编码器)来学习预测行动者网络的损失。对于强化学习,这个损失就是q值。
本文的详细分析可以在:学会学习:让人工智能拥有核心价值观来实现快速学习中找到
在这篇论文中,纽约大学的赵庆云做了一个评价:
这也是一种全新的思维方式。
从以上分析中,我们可以看到元学习方兴未艾,各种神奇的想法层出不穷,但是真正的杀手级算法还没有出现,所以我们期待着未来的发展!我也希望更多的朋友能够致力于元学习的研究方向。
雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。
标题:最前沿:百家争鸣的Meta Learning/Learning to learn
地址:http://www.hcsbodzyz.com/hcxw/5992.html