1导言
自从人工智能诞生以来,它就一直被用来衡量人类智能(著名的图灵测试)。人机对抗技术作为人工智能研究的前沿方向,一直是国内外人工智能研究的热点。以人机对抗为主要形式的人工智能研究为探索机器智能的内在成长机制和关键技术原理提供了新的实验环境和验证途径。整个过程不仅能使机器更智能地为人类服务,还能把人类从一些复杂的任务中解放出来。提高自身智力水平,深刻理解和掌握智力的内在本质和生成机制,进而推动整个社会从信息化向智能化发展。
2发展历史
从1936年开始,艾伦,人工智能之父;在图灵提出著名的“图灵测试”之后,人与机器之间的智能对抗已经成为衡量机器智能发展水平的最重要标准。从实现最初的简单智能到进化成更复杂的智能,对抗贯穿了人工智能的计算、感知和认知三个阶段(图1)。从某种意义上说,正如人类与自然环境的对抗促进了人类的进化一样,机器与人类的对抗必将使机器智能不断发展和进化。
图1人机游戏的开发历史
3内涵和机制
虽然人机对抗智能技术在不同的应用领域得到了极大的关注并显示出了应用前景,但目前还没有对其理论和相关技术进行系统的描述。本文将从其内涵和机理,以及在此基础上的相关模型和关键技术进行阐述。
3.1人机对抗的内涵
人机对抗是以机器和人的对抗为途径,以游戏学习为核心技术,实现机器智能快速学习和进化的一个研究方向。人机对抗作为“图灵测试”的重要手段,是检验机器智能的试金石,为探索机器智能的内在成长机制和验证关键技术提供了有效的测试环境和评价标准,具有重要的科学研究意义和应用价值。
3.2人机对抗机制
人机对抗机制研究对抗的要素及其相互关系,以及互动的运行规律和原则。涉及的要素包括人(机器的对手)、机器(对抗的人工智能)和环境(对抗的规则和条件的集合)。根据人机三要素的分析方法,三要素的相互作用分别形成一元博弈、二元博弈和三元博弈。人机对抗智能的科学问题可以概括为游戏学习的可建模性、可计算性和可解释性。
4人机对抗模型及关键技术
与知觉智能不同,人机对抗通常关注时间序列决策等更复杂的认知智能,其过程建模是一个高度复杂的问题,因此认知决策建模是整个人机对抗的核心关键环节。
本文将强对抗环境下人机对抗的决策过程概括为感知、推理、决策和控制,并将人机对抗的关键技术概括为四个部分:对抗空的表示与建模、态势评估与推理、策略生成与优化、行动协调与控制。通过对对抗态势的解读和理解、认知预测、战略决策和行动实施,局部整体不断迭代增强,对抗能力得到独立提升。人机对抗中涉及的关键技术如图2所示。
图2人机游戏的进程建模和关键技术
4.1对抗空的表现和建模
构建有效的知识表示模型,准确描述对抗空中决策要素的构成、属性特征以及要素之间的相互作用,是实现人机对抗的基础。极其复杂、高度动态、强对抗的环境具有决策要素海量、高维、要素影响高度耦合、决策关键信息不完整等特点。,这使得对抗空的量化表示极具挑战性。
这方面可能的研究包括:
(1)表达对抗空中的要素实体关系,研究对抗空中各种不同的实体、实体属性及其交互关系,构建决策要素的表征模型;
(2)学习对抗空之间的特征张量表示,分析实体属性关系耦合和结构拓扑对个体和群体对抗能力的影响,构建对抗空之间可解释的高维张量描述;
(3)层次聚集演算规则建模,将经验表示和数值计算相结合,定义对抗态势和对抗能力的多因素、层次聚集演算规则,形成环境-用户-对手多元耦合的可计算表示系统;
(4)基于异构信息网络的抽象通用空表示,基于能力演算规则,研究了对抗要素的抽象态势表示,降低了对抗场景相关性带来的噪声和数据稀疏性的影响。
4.2对抗态势评估与推理
对抗态势是指敌对双方通过实力对比、部署和行动等形成的状态和趋势。对形势的评估和推理为后续对抗策略的产生和优化提供了基础。
挑战是:
(1)用于训练情境意识和预测模型的高级别对抗数据通常非常有限;
(2)对手的信息往往混乱、不完整,仅根据对手的部分信息评估整体情况的准确性差;
(3)复杂的对抗环境导致大量可用于态势评估的信息,难以有效融合形成多角度的层次化态势。
可能的研究包括:
(1)生成高质量的对抗数据,用于通过自主游戏或生成的对抗网络生成高质量的人机对抗数据,用于人机对抗的建模和分析;
(2)从小样本中学习,在数据较少的情况下,通过迁移或自适应研究对抗态势的直接评估;
(3)对手信息估计,将历史信息与当前对抗环境相结合,自下而上实现对手动作估计、意图识别和策略估计;
(4)情境分层认知,结合多源异构信息,研究情境的多角度分层评价和推理。
4.3对策的产生和优化
对抗策略主要涉及多智能体合作的任务规划,解决群体和个体的行动规划问题。
其技术挑战在于:
(1)不完全信息使得对手的位置、行为和企图不完全为人所知,而对手行为的未知概率模型导致保守的策略选择,因此有必要在不完全信息下选择博弈策略;
(2)宏观决策收入的反馈滞后,使得宏观决策的效果需要很长时间才能得到体现,难以在决策行为和效益之间形成有效的映射;
(3)行动能力与环境是深层次耦合的,忽视当地的环境因素可能导致战略分析的严重偏差,而过于细致的分析导致减少对抗空.的难度
考虑到战略生成和优化的挑战,使用星际争霸等战略游戏作为研究平台是国际公认的。
可能的研究包括:
(1)宏观策略生成,针对面临任务和任务的全局博弈对抗问题,构建层次化的任务分解和任务协调机制,实现复杂群体博弈对抗问题向低维空的约简;
(2)微观策略生成,针对局部博弈对抗问题,构建微观群体局部策略的自适应机制,实现微观群体强大的博弈对抗能力和环境迁移能力;
(3)策略优化方法,针对策略能力需要自主提升的问题,构建了博弈策略的评价机制和学习策略进化机制,实现了博弈策略的自主进化和能力提升。
4.4对策的协调和控制
该策略的实施需要多个代理的行动协调。每个智能体在自身信息获取和初步认知的基础上,利用资源贡献、信息连通、要素融合、虚拟合作、智能辅助等功能。并且虚拟地与多个单元合作以形成集成的群体行动协调和控制。多智能体合作的困难包括:多智能体的学习目标、个体奖励和团队奖励之间的关系、智能体在学习过程中的作用和影响、联合状态和联合行动的获得以及扩展状态空和空.行动造成的维度灾难
目前,相关的研究工作主要集中在多智能体协作和学习上。可能的研究包括:
(1)从协同过程来看,可分为序列策略表征、协同机制优化、异构多智能体协同和多元协同融合;
(2)从协作任务的类型来看,可以分为任务协作、智能协作和不同任务的资源协调。
(3)突破了理论上分散和沟通中断的默契配合方法,任务涵盖了系列化任务、多层次任务、多领域任务等。实现场景类型的全覆盖,合作方式的多样化,为培训提供高质量的合作策略。
5应用和挑战
人机对抗智能技术的应用领域涉及棋类游戏、实时策略游戏、战争棋推演等。在许多领域,机器智能已经达到并超越了人类在该领域的顶尖玩家,不断刷新游戏对抗记录,显示出新一轮人工智能技术在认知决策方面的鲜明特征。
5.1棋牌战略游戏对抗
国际象棋和纸牌策略游戏一直被用作测试计算机智能发展水平的参考标准。这些游戏因其简单的规则和丰富的玩法而受到全世界粉丝的喜爱。此外,由于其规则的确定性、游戏环境的可控性和不完全信息,吸引了人工智能领域的不断研究。
由deepmind提出的阿尔法围棋技术赢得了围棋人机对抗
在一对一无限注德州扑克中,
迪普斯塔克成为第一个击败职业玩家的德州扑克人工智能程序;
卡内基梅隆大学的研究人员提出的德州扑克的人工智能算法天平动也击败了许多顶级职业德州扑克玩家。
5.2实时战略游戏对抗
实时策略游戏是另一个常用于评估机器智能的平台。与国际象棋相比,整个对抗过程是立即进行的。通常,这种游戏包括资源收集、基地建设和科技发展等几个因素。玩家需要平衡不同的因素并控制一个或多个受控单位来完成对抗。经典的实时战略游戏包括星际争霸和dota2。得益于国际人工智能竞赛和企业与学术界的友好合作,实时战略游戏人工智能取得了长足的进步。
星际争霸人工智能程序阿尔法星以10:1击败了人类职业玩家
相关的人工智能算法包括控制被控单元间微观操作的多智能体强化学习、进行宏观作战决策的深层神经网络模型和实现对抗过程演化的状态机模型。虽然深度强化学习技术在很多游戏中都有很好的表现,但是如何提高模型的稳定性和性能来击败顶尖的人类玩家,以及如何实现可解释的模型来支持可信的学习建模仍然需要人工智能算法的不断突破。
5.3军事模拟和演绎对抗
由于其战略意义,军事模拟与推演长期以来一直受到国家层面的重视,其对抗演练具有重要的实用价值。随着博弈对抗规模的扩大,对抗空呈指数级增长,多服务合作与环境耦合问题突出。战争系统具有强非线性和高动态性等复杂特性,在最佳策略的解析计算和随机逼近方面面临巨大挑战。人机对抗需要发展对手的行为意识建模和协同进化博弈策略,以不断提高对抗能力。
空战争智能游戏人机对抗系统(alpha),揭开了无人设备对抗有人设备的序幕
自动化研究所开发的卡西亚先知1.0系统赢得了战争棋推演大赛
事实上,游戏贯穿人类社会的方方面面。游戏和对抗在政治、经济、文化、军事等方面发挥着重要作用。人机对抗技术还将在信息获取、传递、分析、理解、推理、决策等环节发挥作用,促进感知和认知智能的发展。
6
总结与展望
人工智能的发展,特别是在机器学习和大脑计算等领域,为人机对抗智能和自主进化带来了机遇。迫切需要深化对人机对抗问题本质的认识和分析,科学合理地建立机器智能与人类智能的高效合作机制,实现人机对抗理论、技术和应用的重大突破,推动人类社会经济、政治、金融和生活领域的智能化进程。
标题:人工智能与人类智能的竞赛:人机对抗智能技术全梳理
地址:http://www.hcsbodzyz.com/hcxw/554.html