最前沿：百家争鸣的Meta Learning/Learning to learn-慧聪商情网

本篇文章3948字，读完约10分钟

雷锋。(公开号码:雷锋。出版社:这篇文章的作者是洪颂。这篇文章最初发表在他的智虎专栏《智能单元》上。雷锋。com已被原作者授权。

1引言元学习或学会学习已成为继强化学习(以后仅称为元学习)之后的另一个重要研究分支。对于人工智能的理论研究，它提出

人工智能的趋势->机器学习->深层学习->深层强化学习->深层元学习。

这种发展的原因完全取决于目前人工智能的发展。在机器学习时代，复杂的分类问题是无效的，深度学习的出现已经基本解决了一对一映射的问题，比如图像分类，一个输入一个输出，因此出现了像alexnet这样的里程碑式的成就。但是如果输出对下一个输入有影响呢？也就是说，仅靠深度学习无法解决顺序决策问题。这时，强化学习强化学习出现了，深层强化学习+强化学习=深层强化学习强化学习。通过深度强化学习，序列决策已经取得了初步成果，因此，出现了像alphago这样的里程碑式成果。然而，新的问题又出现了。深度强化学习过于依赖大量的训练，需要精确的奖励。对于现实世界中的许多问题，比如机器人学习，没有好的回报，也没有无限期训练的方法。我该怎么办？这需要能够快速学习。人类快速学习的关键在于人类有学习的能力，并且能够充分利用过去的知识和经验来指导新任务的学习。因此，元学习成为一个需要克服的新方向。

最前沿：百家争鸣的Meta Learning/Learning to learn

同时，星际争霸2 deepmind在使用现有深度增强学习算法方面的失败表明，目前的深度增强学习算法很难处理空行动过于复杂的情况，尤其是需要真正的战略和战术思维的问题。这导致了一般人工智能的一个核心问题，那就是让人工智能学会思考和推理。在我看来，alphago在将棋盘特征输入到神经网络的过程中已经完成了思考，但毕竟Go 空的移动是非常有限的，也就是几百个选择，这比星际争霸2中几乎无限的选择要差得多(根据屏幕分辨率*鼠标和键盘按钮= 1920*1080*10，大约是20，000个。然而，在如此多的选择的情况下，人类仍然是好的。关键是人类已经通过某些策略和战术极大地减少了选择的范围(例如，当前的目标是创造人和我)。因此，如何让人工智能学会思考和构造策略是非常关键的。这个问题甚至比快速学习更困难，但是因为元学习有能力学会学习，它也可能学会思考。因此，元学习仍然是学习思考这些难题的潜在解决方案之一。

最前沿：百家争鸣的Meta Learning/Learning to learn

经过以上分析，但为了得出以下结论:

元学习是实现通用人工智能的关键！在这篇文章之前，该专栏已经发表了两篇与元学习相关的文章:

学会学习:让人工智能拥有核心价值观，实现快速学习

机器人革命和学会学习

以前，我们用学习这个名字来学习，是为了让更多的朋友了解这个概念。从这篇文章开始，我们将直接使用元学习这个名字(事实上，这只是因为这个名字看起来更专业和酷)

最前沿：百家争鸣的Meta Learning/Learning to learn

本文不会介绍元学习的概念，但是上面列出的两个博客已经解释过了。本文将与大家分享一些元学习的前沿研究进展，这可以说是一个百家争鸣的阶段。

最前沿：百家争鸣的Meta Learning/Learning to learn

2元学习的研究思路:为什么说元学习的研究是一百个学派？因为每个家庭的研究理念完全不同，所以这确实是一个用各种方法和实验大爆发智慧的阶段。

关于元学习的论文，我收集了:

song rotek/meta-learning-论文

在这里，我们主要分析过去一两年的发展，首先做一个分类，然后做一个简要的分析。

2.1基于内存的方法

基本思路:既然我们应该从过去的经验中学习，我们能通过给神经网络增加记忆来实现吗？

代表性文章:

[1] santoro，adam，bartunov，sergey，botvinick，matthew，wierstra，daan，lillicrap，timothy。具有记忆增强神经网络的元学习。《第33届国际机器学习会议录》，第1842-1850页，2016年。

最前沿：百家争鸣的Meta Learning/Learning to learn

[2] munkhdalai t，yu h. meta networks .arxiv预印本arxiv:1703.00837，2017。

以具有记忆增强神经网络的元学习为例，让我们看看他的网络结构:

我们可以看到，网络的输入也以最后一个y标签作为输入，并增加了外部存储器来存储最后一个X输入，这使得y标签和X在下一个输入被反向传播时建立连接成为可能，使得后续的X可以通过外部存储器获得相关的图像进行比较，从而达到更好的预测。

最前沿：百家争鸣的Meta Learning/Learning to learn

2.2基于预测梯度的方法

基本思路:既然元学习的目的是实现快速学习，而快速学习的关键点是神经网络的梯度应该准确快速的下降，那么神经网络能不能学习如何利用以前的任务来预测梯度，这样在面对新的任务时，只要梯度预测准确，学习就会更快？

最前沿：百家争鸣的Meta Learning/Learning to learn

代表性文章:

[1] andrychowicz，marcin，denil，misha，gomez，sergio，hoffman，matthew，pfau，david，schaul，tom和de freitas，nando。通过梯度下降学习。神经信息处理系统进展，第3981-3989页，2016年

最前沿：百家争鸣的Meta Learning/Learning to learn

本文的思路很奇怪，训练一个通用的神经网络来预测梯度，用二次方程的Return问题来训练，然后用这种方法得到的神经网络优化器优于adam和rmsprop，明显加快了训练速度。

最前沿：百家争鸣的Meta Learning/Learning to learn

2.3使用注意机制的方法

基本思想:通过利用过去的经验可以提高人们的注意力。例如，当我们看一张性感的照片时，我们自然会关注关键位置。那么，我们能不能利用以前的任务来训练一个注意力模型，以便面对新的任务并直接关注最重要的部分？

最前沿：百家争鸣的Meta Learning/Learning to learn

代表性文章:

[1] vinyals，oriol，blundell，charles，lillicrap，tim，wierstra，daan，et al . matching networks for one shot learning .神经信息处理系统进展，第3630-3638页，2016年。

本文构建了一个注意机制，即通过注意的叠加得到最终的标签判断:

注意力a由g和F获得..基本目的是通过使用现有的任务来训练一个好的注意力模型。

2.4学习lstm方法

基本思想:lstm内部更新非常类似于梯度下降更新。因此，lstm结构可以用来训练神经网络更新机制，输入当前网络参数并直接输出新的更新参数吗？这个想法很聪明。

最前沿：百家争鸣的Meta Learning/Learning to learn

代表性文章:

[1] ravi，sachin and larochelle，hugo。优化作为少量学习的模型。参加2017年国际学习表征会议。

本文的核心思想是以下段落:

如何将lstm更新与梯度下降联系起来是一个更值得思考的问题。

2.5学习者自主学习的元学习方法

基本思想:既然元学习可以用于监督学习，那么可以做些什么来提高学习效果呢？可以通过增加一些外部信息的输入来实现吗，比如奖励和以前的行为？

代表性文章:

[1] wang j x，kurth-nelson z，tirumala d，et al . learning to refugrade learning .arxiv预印本arxiv:1611.05763，2016。

[2] y. duan，j. schulman，x. chen，p. bartlett，i. sutskever和p. abbeel。rl2:通过慢速强化学习的快速强化学习。技术报告，加州大学伯克利分校和openai，2016年。

这两篇文章有相同的想法，即增加额外的奖励输入和先前的动作，从而迫使神经网络学习一些任务级信息:

2.6通过训练一个好的基础模型方法，并应用于监督学习和增强学习的同时

基本思想:以前的方法只能局限于监督或加强学习。你能做一个更一般的吗？学习一个比微调更好的基础模型有可能吗？

代表性文章:

[1] finn，c .，abbeel，p .，& levine，s. (2017)。与模型无关的元学习，用于深度网络的快速适应。arxiv预印本arxiv:1703.03400。

本文的基本思想是同时启动多个任务，然后得到不同任务的合成梯度方向进行更新，从而学习一个共同的最佳基。

2.7波网的使用方法

基本思想:wavenet的网络每次都使用以前的数据，那么我们可以复制wavenet的方式来实现元学习吗？就是充分利用过去的数据。

代表性文章:

[1] mishra n，rohaninejad m，chen x，等.时间卷积元学习.arxiv预印本arxiv:1707.03141，2017。

它是最先进的omniglot，mini imagenet图像识别，直接使用以前的历史数据。

2.8预测损失的方法

基本思想:为了使学习速度更快，除了更好的梯度，如果有更好的损失，学习速度会更快。因此，我们能建立一个模型来学习如何利用以前的任务来预测损失吗？

最前沿：百家争鸣的Meta Learning/Learning to learn

代表性文章:

[1] flood sung，zhang l，xiang t，hospedales t，et al . learning to learning:meta-criteria networks for sample effective learning .arxiv预印本arxiv:1706.09529，2017。

本文构建了一个元评价网络(包括元价值网络和任务-行动者编码器)来学习预测行动者网络的损失。对于强化学习，这个损失就是q值。

本文的详细分析可以在:学会学习:让人工智能拥有核心价值观来实现快速学习中找到

在这篇论文中，纽约大学的赵庆云做了一个评价:

这也是一种全新的思维方式。

从以上分析中，我们可以看到元学习方兴未艾，各种神奇的想法层出不穷，但是真正的杀手级算法还没有出现，所以我们期待着未来的发展！我也希望更多的朋友能够致力于元学习的研究方向。

最前沿：百家争鸣的Meta Learning/Learning to learn

标题：最前沿：百家争鸣的Meta Learning/Learning to learn

地址：http://www.hcsbodzyz.com/hcxw/5992.html

最前沿：百家争鸣的Meta Learning/Learning to learn

慧聪商情网推荐资讯

量子科技：“无人区”里“加速跑”_

科技创新再度引发全民关注，5G技术或将引领互娱新时代

【时讯】爱之园ibg school西城校区启动

深度学习下的医学图像分析（一）

Oculus对用户推出新福利：对VR游戏不满意可退款

进军家装O2O市场视频监控成新焦点

小乔科技2019春季新品发布会—不做中国的Peloton,做世界的小乔

365体育竞猜：创纪录，雄鹿惨遭屠

止步安卓6.0：官方确定停止更新黑莓Priv系统

【时讯】“萌系”校长周绪红告别重庆大学曾是学校网红

慧聪商情网热文榜

徐州品圣砂石分离机为混凝土行业环保化转型注入活力

【时讯】家长发现孩子看“黄书”“黄碟”如何办？

【时讯】高考各地考点地图查询

【时讯】北京大学医学部2019年各地高考录取分数线

【时讯】北京化工大学2019年自主招生简章

【时讯】浙江教育厅发文要求加强毕业论文过程监管

【时讯】睡在我对面的兄弟：胡先煦自曝与易烊千玺成舍友

【时讯】2018艺术升对于艺考生的重要性

【时讯】学霸为“女生不适合理科”正名不要自设障碍

【时讯】海淀区发布2019年幼儿园名录其中民办园为55所

慧聪商情网最新发布

慧聪商情网介绍