解密AlphaStar怎样来玩以及观察游戏的

人工智能百科辞典

发布时间:01-3017:32

职业星际争霸高手,如TLO和MaNa,几乎每分钟可以发出数百个动作(APM)。这远远少于大多数现有的机器人,它们独立控制每个单元,并始终维护数千甚至数万个apm。

在与TLO和MaNa的比赛中,AlphaStar的平均APM约为280,远低于职业选手,不过它的动作可能更精确。这种较低的APM部分是因为AlphaStar使用回放开始训练,因此模仿了人类玩游戏的方式。此外,AlphaStar的反应在观察和行动之间的平均延迟350ms。

QR量化投资社区

AlphaStar在与MaNa和TLO的比赛中APMs的分布以及观察和行动之间的总延迟。

全损匹配和法力,AlphaStar与星际争霸游戏引擎直接通过其原始界面,这意味着它可以直接在地图上观察自己的属性和其对手的可见单位,而无需移动相机——实际上玩游戏的鸟瞰图。相比之下,人类玩家必须明确管理“注意力经济”,以决定在哪里对焦相机。然而,对AlphaStar游戏的分析表明,它管理着一种隐性的注意力焦点。平均而言,特工每分钟“切换上下文”约30次,类似于法力值或TLO。

此外,在比赛之后,我们开发了AlphaStar的第二个版本。和人类玩家一样,这个版本的AlphaStar会选择何时何地移动摄像头,它的感知仅限于屏幕上的信息,行动地点也仅限于它的可视区域。

AlphaStar使用raw接口和camera接口的性能,显示新训练的camera agent快速追赶,几乎与使用raw接口的agent性能持平。

我们训练了两名新特工,一名使用原始界面,另一名必须学会控制摄像头,以对抗AlphaStar联盟。每个agent最初都是通过从人类数据中进行监督学习,然后按照上述强化学习过程进行训练的。使用摄像头界面的AlphaStar版本几乎和原始界面一样强大,在我们的内部排行榜上超过了7000 MMR。在一场表演赛中,马纳用镜头界面击败了AlphaStar的一个原型版本,这个界面只训练了7天。我们希望在不久的将来评估一个完整的训练实例的摄像机接口。

这些结果表明,AlphaStar对MaNa和TLO的成功实际上是由于优越的宏观和微观战略决策,并不是优越的点击率、更迅速的反应时间或原始界面。

返回顶部