AlphaStar：称雄即时战略游戏星际争霸II

百度首页

在过去几十年，游戏一直是被用作实验和判断人工智能系统性能的重要方法。随着能力的提高，研究界开始寻求越来越复杂的游戏，捕捉解决科学和现实问题所需的不同智能元素。近年来，星际争霸被认为是最具挑战性的即时战略（RTS）游戏之一，也是史上被人们玩得最久的电子竞技游戏之一，已成为人工智能研究的“重大挑战”。

现在，我们介绍我们的星际争霸2程序AlphaStar，它是第一个打败顶级职业棋手的人工智能。在12月19日举行的一系列测试比赛中，AlphaStar在与队友达里奥·温施(Dario " TLO " Wunsch)进行了一场成功的基准测试后，以5比0的比分，决定性地击败了Team Liquid的Grzegorz "MaNa" Komincz，后者是世界上最强大的职业星际争霸玩家之一。比赛在专业比赛条件下进行，没有任何游戏限制。

尽管在Atari，Mario，雷神争霸3和Dota 2等视频游戏方面取得了重大成功，但直到现在，AI技术仍在努力应对星际争霸的复杂性。通过手工制作系统的主要元素，对游戏规则施加重大限制，赋予系统超人能力或通过在简化地图上进行游戏，可以获得最佳结果。即使进行了这些修改，也没有任何系统可以与专业玩家的技能相媲美。相比之下，AlphaStar在星际争霸2中玩的是完整的游戏，它使用的深度神经网络是通过监督学习和强化学习直接从原始游戏数据中训练出来的。

《星际争霸2》由暴雪娱乐公司出品，故事背景设定在一个虚构的科幻世界中，具有丰富的多层次游戏玩法，旨在挑战人类的智力。和最初的游戏一样，这款游戏也是史上规模最大、最成功的游戏之一，玩家在电子竞技比赛中竞争了20多年。

有几种不同的方式来玩游戏，但在电子竞技中最常见的是1v1比赛超过5场。首先，玩家必须选择三种不同的外星“种族”中的一种——虫族、神族或人族，它们都有各自的特点和能力(尽管职业玩家往往只专注于一种种族)。每个玩家从一些工作单元开始，这些工作单元收集基本资源来构建更多的单元和结构并创造新技术。这些反过来又允许玩家获取其他资源，建立更复杂的基地和结构，并开发新的能力，可以用来智胜对手。要想取胜，玩家必须在宏观经济的宏观管理和微观个体的低水平控制之间保持谨慎的平衡。

平衡短期和长期目标以及适应意外情况的需要对往往脆弱和缺乏灵活性的系统提出了巨大的挑战。要想解决这个问题，需要突破人工智能研究的几个挑战，包括:

博弈论：《星际争霸》是一款像剪刀石头布一样没有最佳策略的游戏。因此，人工智能培训过程需要不断探索和拓展战略知识的前沿。

不完全信息：不像国际象棋或围棋那样玩家什么都能看到，关键信息对星际玩家是隐藏的，必须通过“侦察”来主动发现。

长期规划：像许多现实世界中的问题一样，因果关系不是瞬间产生的。游戏也可以在任何地方花费一个小时完成，这意味着在游戏早期采取的行动可能在很长一段时间内都不会有回报。

实时：不像传统的棋类游戏，玩家在接下来的动作之间交替，《星际争霸》玩家必须随着游戏时间的推移不断地执行动作。

大型活动空间：数百个不同的单元和建筑必须同时被实时控制，从而形成一个可能性组合空间。在此之上，操作是分层的，可以修改和扩展。我们对游戏的参数化在每个时间步中平均大约有10到26个符合规则的行为。

由于这些巨大的挑战，星际争霸已经成为人工智能研究的“大挑战”。自2009年发布BroodWar API以来，《星际争霸》和《星际争霸2》的竞赛一直在进行，包括AIIDE星际争霸AI竞赛、CIG星际争霸竞赛、学生星际争霸AI竞赛和《星际争霸2》AI阶梯。为了帮助社区进一步探索这些问题，我们在2016年和2017年与暴雪合作发布了一套名为PySC2的开源工具，其中包括有史以来最大的一组匿名游戏回放。我们在此基础上，从工程和算法上进一步突破，从而有了AlphaStar。

举报/反馈

技术指标峰会

142获赞 34粉丝

授人以渔，分享自己的经验。

关注