反向研发会玩躲猫猫的AI
人类是一种能够适应环境挑战的物种,能够在生物学上进化是在动物身上发现但在人工智能(AI)中缺失的一个重要特征。
尽管机器学习在诸如围棋和Dota 2等复杂游戏中取得了显着进步,但在这些领域掌握的技能并不一定能够推广到真实场景中的实际应用。越来越多的研究人员正在寻求建立一种机器智能,使其行为、学习和进化更像人类。
在儿童的“躲猫猫”游戏中训练模型,并在数以千万计的竞赛中使它们相互对抗,可导致模型自动发展出类似人类的行为,从而提高智力并改善后续行动的性能。
为什么要选择躲猫猫?
躲猫猫被选为一个有趣的起点,主要是因为其规则很简单。所有游戏中的代理都被模拟为球形对象,可执行3种类型的操作:导航;抓住并移动物体;锁定对象,且只能由该代理的队友解锁。
研究人员在模拟的、物理接地的环境中放置了一到三个“躲藏者”和一到三个“寻找者”,房间的边界是静态墙。环境中还包括不同尺寸的可移动箱子和可移动坡道。
研究人员使用强化学习来训练游戏代理,刺激代理实现目标的奖励机制遵循简单的躲猫猫规则:隐藏者成功躲过寻找者的追逐,或是寻求者成功找到躲藏者。
AI如何玩躲猫猫?
在经过数亿次的游戏后,AI代理经历了几个阶段的策略发展过程。
在初始阶段,隐藏者和寻找者通过在空间中移动而不操纵任何物体,制定了非常粗糙的躲避和追逐策略。
在经历2500万个回合后,游戏变得更加复杂。藏匿者学会了移动和锁定在环境中的箱子和路障,以在自己周围建立堡垒,这样寻找者就永远看不到它们了。不仅如此,他们还制定了协调战略,例如相互传递物体,以加快建造堡垒的进程。
然而,在游戏进行了7500万回合之后,寻找者发现了一个反策略。他们学会了在藏匿者的要塞旁边移动一个坡道,并用它来爬过墙壁。
作为回应,躲藏者学会了将坡道移入他们的房间,因此寻找者无法用它来越过墙壁。
随着环境变得越来越复杂,躲藏者学会了使用细长箱子建造更强大的“堡垒”。虽然也许这将是最终的策略,但在游戏进行到3.8亿回合时,寻找者再次成功反击,找出一种方法来跳到一个盒子上并利用动力在它上面“冲浪”,越过墙壁和进入堡垒。
在最后阶段,躲藏者学会在建造堡垒之前锁定所有箱子,以防止“箱子冲浪”。
随着人工智能反向工程研究的不断开展,国内人工智能产业将会在短时间内取得重大突破。龙芯世纪反向研发中心将再次加大人工智能反向工程的研发力度,助力国产企业在未来人工智能大市场上占领先机。