双手都无法还原的魔方？OpenAI的AI机器人单手就能做到！

人工智能（AI）研究组织OpenAI在制造具有通用性、能够自我学习的机器人方面取得了新的里程碑。该组织的机器人部门表示，其去年首次亮相的机器人手Dactyl已经学会了单手解魔方。OpenAI将这个壮举视为一次飞跃，这既体现在机器人手的灵巧性上，也体现在其自主研发的AI软件上。这种软件允许Dactyl在面临真正的物理挑战之前，利用虚拟模拟来学习如何执行新任务。

在展示Dactyl新才艺的演示视频中，我们可以看到机器人手以摸索的方式逐渐破解魔方，虽然其动作显得有点儿笨拙，但却十分精确。尽管破解的过程有点儿长，但Dactyl最终解决了这个难题。这个机器人手的动作看起来明显不如真正的人手灵活，甚至有点儿脱节，更无法与那些能在短短几秒钟内破解魔方的人的惊人速度和敏捷相比。

但对于OpenAI而言，Dactyl的成就使其向更广泛的AI和机器人行业令人向往的目标又迈进了一步。这个行业希望研发出能够学习执行各种现实世界任务的机器人，它们无需培训数月乃至数年时间，也无需专门进行编程。

OpenAI的研究科学家和机器人技术负责人彼得·韦林德(Peter Welinder)说：“很多机器人都可以非常快地破解魔方。但它们所做的事情和我们正在做的事情之间存在重要区别，那些机器人都有着特定任务目标。显然，你不可能使用相同的机器人或相同的方法来执行另一项任务。OpenAI的机器人团队有着截然不同的雄心壮志，我们正在尝试建造通用机器人，比如像人手那样可以做很多不同的事情，而不仅仅是执行特定的任务，我们正在试图在一定范围内能够通用的东西。”

韦林德指的是过去几年中出现的各种机器人，这些机器人已经将破解魔方的方法推向远远超越人类双手和思维的极限。2016年，半导体制造商英飞凌(Infineon)开发了一款专门用于以超快速度破解魔方的机器人，该机器人成功地在一秒钟内完成了这个任务。这打破了当时由人类保持的世界纪录（不到5秒）。两年后，麻省理工学院开发的一台机器在不到0.4秒的时间破解了魔方。

换句话说，为某一特定任务而设计的机器人，并被编程为尽可能高效地执行该任务，通常最适合人类，而破解魔方是软件很久以前就掌握的东西。因此，开发机器人来破解魔方，即使是与人手相似的机器人，本身也并不是那么引人注目。Dactyl操作的速度十分缓慢，这让其取得的成就更显得不起眼儿。

但是OpenAI的Dactyl机器人和驱动它的软件，在设计和用途上与专用的魔防破解及其有很大的不同。正如韦林德所说的那样，OpenAI正在进行的机器人研发工作并不是为了在狭隘任务中获得卓越的结果，因为这只需要你开发更好的机器人并相应地对它进行编程就可做到。这甚至可以在没有现代AI支持的情况下完成。

取而代之的是，Dactyl是从头开始、逐渐掌握自学能力的机器人手，它可以像人类那样处理新的任务。Dactyl同样需要接受软件训练，目前正试图以一种初级方式复制数百万年的进化经验，这些经验也曾帮助我们学习如何在孩提时代本能地使用自己的手。OpenAI希望将来能帮助人类发展出我们只能从科幻小说中看到的类人机器人，这些机器人可以在不危及我们安全的情况下融入社会中，并在城市街道和工厂车间这样的混乱环境中执行各种各样的任务。

为了学习如何单手破解魔方，OpenAI没有对Dactyl进行显式编程来帮助其破解魔方，互联网上的免费软件可以帮解决这一问题。OpenAI还选择不为机器人手的个别动作进行编程，因为该组织想让Dactyl自己识别这些动作。取而代之的是，机器人团队给机器人手的底层软件设定了破解魔方的最终目标，并使用现代AI（特别是名为强化学习的基于激励的深度学习技术）来帮助它自学如何解决问题。利用同样的AI训练方法，OpenAI曾开发出世界上最先进的《DOTA 2》游戏机器人。

但直到最近，训练AI代理做些虚拟的事情（例如玩电脑游戏）比训练它执行现实世界任务要容易得多。这是因为，研究人员可以加快训练软件在虚拟世界中做某些事情的速度，这样AI就可以在现实世界的短短几个月时间内接受相当于数万年的训练，这得益于数千个高端CPU和超强大GPU并行工作的结果。

用物理机器人进行同样水平的训练并执行物理任务是不可行的。这就是为何OpenAI试图用模拟环境代替现实世界来开创机器人训练新方法的理由，这也是机器人行业几乎没有尝试过的东西。在这种情况下，该软件可以同时在许多不同的计算机上以加速方式进行广泛的练习，并希望它在开始控制真正的机器人时保留这些知识。

由于训练的局限性和存在明显的安全问题，今天商业中使用的机器人不使用AI，而是用非常具体的指令进行编程。韦林德解释称：“过去的方法是，你需要使用非常专业的算法来解决特定任务，你可以对机器人模型和环境进行精确操控。对于工厂机器人来说，你有非常精确的模型，而且你也确切地知道自己所处的工作环境，因此你非常了解它将如何执行特定的任务。”

这也是为何当前机器人远没有人类那么多才多艺的最重要原因。人们需要大量的时间、精力和金钱来重新给特定的机器人编程，比如组装汽车特定部件或计算机组件的机器人。没有经过适当训练的机器人，即使是在执行人类看起来非常简单的任务，它都会经历惨败。然而，有了现代AI技术，机器人可以模仿人类，这样它们就可以使用对世界同样直观的理解来做从开门到煎蛋等各种事情。至少，这是我们的梦想。

我们距离机器人能够执行这种复杂程度的任务仍然有几十年的距离，AI社区在软件方面所取得的飞跃，比如自动驾驶汽车、机器翻译和图像识别，还没有完全转化为下一代机器人身上。目前，OpenAI只是试图模仿人体某一部位的复杂性，并让机器人的模拟操作变得更自然。

这就是为何Dactyl会被模仿人手设计成拥有24个关节机械手的原因，它与我们在工厂里看到的机械爪或机械钳完全不同。对于支持Dactyl学习如何以人类的方式利用所有这些关节的软件，OpenAI尝试在现实世界中破解魔方之前，已经在模拟环境中对其进行了数千年的训练。

韦林德指出：“如果你正在对现实世界的机器人进行某种训练，很明显，你所训练的东西都是在你想要部署算法的领域发挥作用。这样，事情就简单多了。但是现在的算法需要大量数据训练。要在真实世界中训练机器人，做任何复杂的事情，你需要多年的经验。即使对人来说，也需要几年的时间才能掌握人类经过数百万年进化来的经验，进而学会如何操控手部。”

然而，韦林德称，在模拟中，这种训练可以加速，就像游戏和完成其他广受欢迎的AI基准任务一样。他补充说：“通常情况下，往往需要几千年的时间来训练算法。但在虚拟环境中，这只需要现实世界几天的时间，因为我们可以将训练并行化。在你训练这些算法时，你也不必担心机器人会破坏或伤害别人。”然而，研究人员过去在试图让虚拟训练在实体机器人上工作时遇到了相当大的麻烦。OpenAI表示，它是第一批在这方面真正看到取得进展的组织之一。

当被给予真正的魔方时，Dactyl利用了自己接受的训练，并自己解决了这个问题，并且它是在各种从未明确接受过训练的条件下做到的。这包括戴着手套单手破解魔方，两根手指需要紧紧夹起来，而OpenAI成员不断地用其他物体戳它，并用气泡和像五彩纸屑一样的纸片不断干扰它。

韦林德的同事、OpenAI机器人团队负责人马蒂亚斯·普拉佩特（Matthias Plappert）说：“我们发现，在所有这些扰动中，机器人仍然能够成功地转动魔方，尽管它在训练中没有经历过这些。当我们在物理机器人上尝试这种方法时，这些发现让我们感到惊讶。”

这就是为何OpenAI认为Dactyl新获得的技能对于机器人硬件的发展和AI培训至关重要的原因。即使是世界上最先进的机器人，比如由行业领军者波士顿动力公司(Boston Dynamics)开发的人形机器人和类狗机器人，也不能自主操作，它们需要广泛的特定任务编程和频繁的人工干预才能执行最基本的操作。

OpenAI表示，Dactyl朝着未来机器人迈出了一小步，这种机器人可能将来会独立执行体力劳动或家务活，甚至可以与人类一起工作，而不仅仅是待在封闭的环境中，也无需对它们进行任何编程。在未来的愿景中，机器人学习新任务和适应不断变化环境的能力，将与AI的灵活性以及物理机器的健壮性同样重要。普拉佩特说：“这些方法真的开始证明，这是处理我们物理世界所有固有复杂性和混乱的最佳解决方案之一。”

举报/反馈

环球网

2.3亿获赞 1371.7万粉丝

世界很精彩，带你活出国际范儿！

环球网官方账号

关注