来源 | 卫报、Quartz
整理 | 不定项 高静宜
编辑 | 宇多田
10 月 19 日凌晨,谷歌人工智能团队 DeepMind 在《自然》杂志上发表了一篇论文,描述了新一款围棋程序 AlphaGo Zero 从最开始的「臭棋篓子」到业余棋手,再成长为一个能够考量每一步棋战略意义的围棋大师的过程,而这样的飞跃仅花费了几天的时间。
在最初的 10 个小时里,AlphaGo Zero 发现了一个定式,不久之后,它又掌握了一些特定的棋法。三天后,在经过数百万盘的自我对抗之后,它的棋艺可以超越人类积累数千年的水平,并以 100 比 0 的成绩击败李世石版本的 AlphaGo。
AlphaGo Zero 以 100 比 0 的成绩击败李世乭版本的 AlphaGo
有趣的是,程序在发现某些简单的棋步之前就已经掌握了一些更为复杂的走法,例如人类棋手通常在早期就能掌握的战术「征」。
就是这样一款程序,被很多圈内人誉为人工智能领域的「重大进步」,因为输入游戏规则之后,它可以在没有人帮助的情况下,从零开始掌握这门古老的棋盘游戏。
旧版 AlphaGo 的训练需要成千上万份人类对弈的棋局数据,但 AlphaGo Zero 可以在没有这些帮助下完成学习。初始阶段,它会把棋子随机地放在棋盘上,但发现获胜策略后,它能迅速优化下棋的方式。
「它比以前的方法更强大,因为不再需要历史的棋局数据。可以说,我们已经突破了人类认知的障碍,因为它本身能够创造知识。」AlphaGo 的首席研究员 David Silver 说。
「AlphaGo Zero 发现了一些非常棒的下棋定式,然后超越这些定式并找到一些更加有力的方法。」DeepMind 的首席执行官 Demis Hassabis 表示,「你可以发现,它能重新发现人类几千年来积累的知识。」
因此,没有意外,这篇发表于 Nature 的论文在今天凌晨一公布,除了照例轰动技术圈,早在 5 月与 AlphaGo 交过手并惜败的柯洁也发来了「感慨式贺电」:
而关心 AlphaGo Zero 的非技术宅与吃瓜网友们的画风,基本都是这样的:
也许现在,在看过机器之心纯技术干货的解析之后,你会对科学家们对 AlphaGo Zero 的看法,以及 AlphaGo 在围棋以外可以大展身手的领域与可能性更感兴趣。
从零开始,这是可以进行「自我学习」的 “围棋九段”AlphaGo
AlphaGo Zero 从零起步,在对弈中不断学习逐渐变强
相比于 AlphaGo Zero,人类千百年前对围棋的探索经验,只是一个「局部最优解」。
AlphaGo Zero 程序的核心是一组神经元,这些神经元连接在一起组成了一个人工神经网络。在棋局的每一回合中,神经网络都会查看棋盘上棋子所处的位置,然后计算出棋子下一步可能移动的方向以及相应的获胜概率。每盘棋局结束之后,神经网络都会进行更新,从而在下一次对弈中具备更强大的实力。
「AlphaGo Zero 远胜于此前的版本,不过它只是一个简单地程序,能够在训练数据更少、计算力更小的情况下更快地掌控棋局。如果给它更多的时间,AlphaGo Zero 也可以自己学习围棋规则」,Silver 这样表示。
David Silver 描述 AlphaGo Zero 是怎样学习下围棋的
而谢菲尔德大学神经科学教授 Eleni Vasilaki 表示,这是一项激动人心的壮举。「这可能意味着,在没有人类专家参与训练的情况下,AlphaGo 能够发现一些绝妙的棋步,在这项比赛中超越人类智能。」不过她也指出,尽管计算机可以在围棋比赛中击败人类,能够实现复杂、精密的计算,但它们在其他任务中可能还并不具备与人类相匹敌的能力。
「在某些人类很容易就可以完成的任务中,人工智能经常会失败。」她说,「就看看那些类人机器人在日常任务中的表现吧,例如行走、跑步和击球。」
卡内基梅隆大学计算机科学家 Tom Mitchell 把 AlphaGo Zero 形容为一项「杰出的工程成就」。他补充说:「它相当于终止了关于人类是否会在围棋中战胜计算机的探讨。我猜答案是不会。但同时它也开启了一个新的篇章,即计算机可以教授人类如何更好地进行对弈。」
这个想法受到美国围棋协会主席 Andy Okun 的认可:「我不知道人们的士气是否会受到计算机变强的影响,不过利用神经网络软件对围棋进行探索也将会是一种乐趣。因为它并不是通过表层理解我们而获得胜利的,而是发现了更加深层、内在的模式。」
让历史归零,这是迈向通用人工智能的 AlphaGo
AlphaGo Zero 让人类围棋的历史经验成为了「Zero」,标志着人类向通用型的人工智能迈出了重要一步。
「对我们来说,AlphaGo 的意义不仅限于围棋对弈领域,这也是我们开发通用算法的重大进步。」DeepMind 的首席执行官 Demis Hassabis 说。
DeepMind 首席执行官 Demis Hassabis
《Nature 自然科研》评论称,AlphaGo Zero 最大的突破是实现了白板理论。与婴儿的学习模式类似,它可以通过不断训练、成长获得知识和智力。这意味着,AlphaGo Zero 的学习模式也可以被应用解决其他现实问题。
从目前来看,大多数 AI 的应用着实「范围有限」,因为它们只能执行一项特定的任务,比如翻译语言或识别人脸。但在许多不同的任务中,通用人工智能都有潜力比人类表现得更好。
不过,它也只能完成那些可以在计算机中完全模拟的问题,而驾驶汽车这类任务就超出了这一范围。
「要得到能够与人类能力相媲美的人工智能,我们还有很长的路要走,」Hassabis 说,「在未来十年中,比较现实的是利用人工智能帮助人类发现新药物、材料以及破解粒子物理学中的奥秘。」
而现在,DeepMind 已经开启了新的尝试。
在伦敦,AlphaGo Zero 正在帮助科学家认识蛋白质折叠,这也有可能给药物研发带来新的进展。「药物研发、量子化学、材料研发…应用在这些领域都是有可能的,或许我们还能研发出常温的超导体。」Hassabis 说,「当我还是一个孩子的时候,在读物理书的时候,就曾想象有一天能够发现超导体,那是一个圣杯。」
不过,DeepMind 表示,新版 AlphaGo 不会像其他项目一样公布代码。外部人员可以参考发布在《自然杂志》上的论文内容。
但是业内人士表示,AlphaGo Zero 的「思路」清晰简洁,很有可能广泛适用于其他领域。
OpenAI 的人工智能研究科学家 Tim Salimans 对媒体表示,简单的、通用的方法在人工智能研究中具有很大的价值,因为通过细微的修改,它就可能解决其他问题。
「我认为,把它称为『突破性进展』一点也不为过。」Salimans 说,「虽然不能直接应用到其他领域,但是,我们可以把它看到是解决其他问题的第一步。」
举报/反馈

AI好好用

6.7万获赞 4.4万粉丝
探索全球人工智能应用场景及商业化
优质科技领域创作者
关注
0
0
收藏
分享