本篇文章2656字,读完约7分钟

2017年7月7日,为期三天的“ccf-gair”会议在深圳喜来登大中华区酒店开幕。在第三届人工智能学术前沿特别会议上,伦敦大学学院的王军教授带来了一份主题为“社区智能社会”的报告。请参考雷锋的现场速记。(公开号码:雷锋。com)。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

王军,伦敦大学学院计算机科学系副教授,互联网科学与大数据分析主任。我主要研究智能信息系统,包括数据挖掘、计算广告、推荐系统、机器学习、强化学习、模型生成等。他发表了100多篇学术论文,并多次获得最佳论文奖。他是国际公认的计算广告和智能推荐系统领域的杰出中国专家。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

王军:潘院士今天上午谈到了人工智能2.0。其中一个方向是多个代理之间的合作和竞争。我们也可以从社会学的角度将多主体视为一个群体;研究整个群体和动态系统的特点。对于这个话题,我想给大家介绍一下。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

每个人都知道alphaogo,它的核心技术之一是强化学习。与模式识别和监督学习相比,它仍然可以在没有训练数据集的情况下工作。强化学习系统可以直接与环境互动,获得反馈信息,并在此过程中不断学习,因此更加自然和灵活。强化学习的一个主要特点是定义带报酬的目标方程,并生成优化策略。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

多智能体的强化学习

今天,我们将集中讨论多智能体的强化学习。他们单独与环境互动。在某种情况下,他们各自优化自己的目标,但这些目标之间有约束;另一方面,它们结合起来优化一个主要的目标方程。根据具体情况会有不同的变化。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例1:网络广告

在过去,我们在网络广告领域做了大量的工作,并且较早的应用了强化学习的方法:在环境交互的情况下,我们根据用户在广告后的反馈进行系统的学习。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

目前,我们可以在10毫秒内做出一个好的决定,并在每天100亿流量的情况下进行分析,以帮助广告客户准确投放。

案例2:星际争霸

通过控制星际争霸单元,我们找到了多元智能法则。研究他们在游戏中如何合作、竞争和交流。最近几个月,我们与阿里巴巴合作开发了一个玩星际争霸的人工智能系统。在这个项目中,我们最想解决的是人工智能智能智能体之间的通信问题——当它们想合作攻击对方时,它们必须有效地合作。我们希望在计算时,计算量相对较小,同时达到智能和身体协调的目的;因此,采用双向连接方式,效果非常好。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

目前,对多元智能强化学习的研究还处于非常初级的阶段。这里有两个关键问题:

问题1:在多智能体协作的研究中,智能体的数量很少,目前的研究主要集中在少数智能体之间的协作。当有成千上万个智能体时,效果并不明显。然而,在许多现实场景中,多代理的数量可以达到数百万甚至数千万。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例3:智能出租车应用

一个明显的例子是优步、滴滴和其他智能出租车应用。

在这种例子中,你可以把每个用户和司机手中的终端看作代理。他们可以决定我能接受的价格。在系统级,甚至可能有一个合理分配资源的机制。例如,高峰时段出租车较少,但需求相对较大。在其他时候,可能有很多出租车,但需求并不大。如何部署该系统实际上需要一个非常大的人工智能协作系统来分析。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例4:共享自行车

共用自行车的情况更加明显。你可以想象,如果每辆自行车都配有一个芯片或一台电脑,这是一件非常智能的事情,可以根据目前的情况优化车辆的地理分布。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

问题2:代理是否符合自然法则?今天,如果我们想建立一个强化学习的模型,这个模型必须能够处理数百万个智能体。

我们应该怎么做?我们可以从大自然中获得一些灵感。例如,生态学的自组织理论:个人行为的一些简单规则可以导致人口层面的宏观规律。然而,这种模型有一个显著的问题:它可以从宏观角度解决宏观现象,但缺乏观察世界的微观方法。每个人都有自己的兴趣和自己的优化方程式。这个微观的东西和宏观的现象有什么关系?到目前为止,相关的研究还比较少。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例5:洛特卡-沃尔泰拉模型

这里有一个著名的动物模型叫做lotka-volterra (lv)模型。该模型描述了两个竞争种群及其种群数量之间的动态关系。根据该模型的理论,我们构建了一个具有深度学习和强化学习的多智能体生态模型。我们发现,如果我们关闭智能体(如老虎)的学习能力,它们就不能适应新环境,生态系统就会迅速崩溃。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

然而,在给予智力和学习能力之后,模型中出现的现象与lv模型中猞猁捕捉兔子的动态现象非常相似。模拟的多智能体生态系统和自然界生态系统都遵循一种动态平衡,就像多个人工智能体组成一个动物种群一样。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

这项研究的有趣之处在于,我们发现有这样一种情景:智力可以结合起来优化某个目标,或者独立地优化自己的目标。当这两种情况发生时,作为一个群体,它们有内在的规律。如果我们发现这些规律,将会对我们开发一些新的计算机人工智能模型和新方法很有帮助。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例6:宜家

强化学习中有一个环境,它要么被假定为恒定的,要么以一定的概率不断变化。这种可能性是不可设计的,这意味着我们不能设计这个环境,但要更好地适应它。但在现实中,人们发现在许多场景中,环境本身需要一个适应过程。在宜家的热图上,我们可以看到谷歌在购物中心的活动非常普通,这是一个非常好的现象。我们可以开发一个强化学习算法,使环境(商品摆放)随着顾客的变化而变化。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

这是一项由建筑学教授进行的研究。他制作了一张地图来模拟人们在商店中行走,并根据热图反馈到路面设计中,从而优化用户在此停留的时间,或者最大化用户的可能消费。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例7:分拣机器人

应该优化单个代理(机器人)以用最快的路线分拣快递包裹。这种环境不一定是最好的。根据货物的统计特性,我们设计是将包裹通道放在南京,还是放在北京或上海旁边。因此,环境也需要很好的考虑和设计。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

案例8:迷宫

人工智能需要以最快的效率找到出口。当环境知道它的智力水平时,迷宫是根据情况设计的,这样智能体就有最大的困难或最小的可能性出去。这是一种竞争关系。

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

如何优化它?你会发现这个系统在两个不同的维度上工作。就人工智能而言,它会说,给定一个环境,我想以最快的效率和最好的策略出来。当你修复了人工智能所学到的东西,你就可以在另一个维度上优化环境:现在这种智能是这样一种属性,它能让环境变得更加困难吗?这两个维度相互竞争,相互迭代,从而实现优化。雷锋网

UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

相关文章:

楚谨·吴雄教授演讲:户外机器人系统| 2017

中国科学院谭铁牛院士:模式识别研究的回顾与展望

学会主席苏巴拉奥:机器的学习过程不同于人类

第二届ccf-gair开幕!中国人工智能和机器人行业的生产、教育和研究的跨境整合进入了一个新时代| CCF-GAIR 2017

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:UCL 教授汪军:多智能体强化学习的两大挑战 | CCF-GAIR 2017

地址:http://www.hcsbodzyz.com/hcxw/9851.html