大语言模型前史：机器翻译时代及其崩溃

大型语言模型（LLMs）有着一个引人入胜的历史，可以追溯到20世纪30年代初计算语言学的最初构想。

你可能认为这种追溯过于繁琐，认为LLMs与老式的计算机系统毫无共同之处。你也可能认为LLMs是基于真正的硬核深度学习。

然而，深度学习本身起源于1943年，当时McCulloch和Pitts提出了人工神经模型的第一个祖先。正好是60年前！我们花了这么长时间才达到现代的LLMs。

这个系列并不是为了让你淹没在技术细节中。虽然我们为那些想深入研究的人提供了大量参考文献，但我们的主要目标是吸引你的注意力，分享塑造LLMs的重要发展。把它看作是进一步探索的跳板，一个机会，在历史中找到一些可以激发你进行新机器学习发现的灵感。这是一个邀请，让你沉浸在LLMs的故事中，正是它们在去年引起了轰动。

在这一集中，我们将穿越时光，从1933年到1966年。让我们深入了解机器翻译时代及其崩溃的原因！

美国、苏联和英国的第一步

机器翻译（MT）的概念一直是一个遥远的梦想，激发了许多发明家的想象，但直到20世纪初，工程师和数学家才开始提出实现这一梦想的具体想法。

1933年，当时有两个人，法国亚美尼亚人乔治·阿茨鲁尼（George Artsrouni）和俄罗斯人特罗扬斯基（Petr Smirnov-Troyanskii），分别申请了他们的机器翻译系统的专利，这标志着显著的进展。

1933年——乔治·阿茨鲁尼和特罗扬斯基分别获得了机器翻译系统的专利

乔治·阿茨鲁尼设计了一种纸带存储装置，可以用来查找任何单词在另一种语言中的对应词。特罗扬斯基提出了一个三阶段的方法，其中人类负责翻译的初始和最终阶段，机器作为中间环节。特罗扬斯基坚信未来整个翻译过程可以完全机械化。

阿茨鲁尼的机器

特罗扬斯基的翻译机

1937年——阿茨鲁尼展示了他的第一个原型

特罗扬斯基的思想比阿茨鲁尼的更具意义，但它们的影响主要局限于苏联境内。由于对特罗扬斯基工作的国际认知有限，他的思想未能在全球范围内获得广泛认可和影响。

直到1947年，美国才开始出现关于机器翻译的偶尔讨论。到那时，机器翻译领域的进展仅限于开发一种能够执行基于词典查找操作的程序，模拟人类翻译的任务。

1947年——美国首次讨论机器翻译

由于资源有限和缺乏正式支持，英国在机器翻译领域面临困难。Andrew Booth和Richard Hook Richens只能在正常的大学职责之外抽出空闲时间，致力于这个未探索的领域。他们偶尔合作，创建了一个详细描述的词典，可能与计算机结合使用。

1947年——Booth和Richens开始合作词典项目

同年，即1947年，瓦伦·韦弗（Warren Weaver）在战争期间接触到计算机设计问题，并了解现代电子计算机的能力后，设想了使用计算机进行翻译的可能性。他写信给麻省理工学院的著名教授诺伯特·维纳（Norbert Wiener），提出设计一台计算机进行翻译，以解决人们之间的重大交流问题（“为了地球的建设性和和平未来”）。他甚至推测，翻译问题可以像密码学问题一样处理。

然而，维纳教授在回信中对机器翻译的可行性表示怀疑，认为不同语言中词语的模糊边界以及它们所附带的广泛情感和国际含义是个难题。尽管韦弗试图说服维纳，认为计算机可以处理词汇和词组的组合，但当时这场讨论并未带来翻译领域的任何具体进展。

但在1949年，瓦伦·韦弗继续前进，发表了《翻译》备忘录，将机器翻译的概念推向全球关注。这一事件激发了华盛顿大学、加州大学洛杉矶分校和麻省理工学院的一波研究。

1949年——瓦伦·韦弗发表关于翻译的备忘录

在机器方面，第一个显著的进展发生在1950年。利昂 ·多斯特尔特（Leon Dostert）与国际商用机器公司（IBM）合作，发起了乔治城-IBM实验，诞生了乔治城机器——世界上第一个机器翻译的奇迹。它象征着一个未来的美好愿景，单词可以轻松跨越语言障碍。从这一刻起，MT的事件开始迅速展开。

1950年——发明乔治城机器，第一个用于机器翻译的机器

大约在同一时间，巴尔·希勒尔（Yehoshua Bar-Hillel）被任命为麻省理工学院的第一个全职机器翻译（MT）研究员。他组织了第一个完全专注于机器翻译的国际会议，并为此发表了一篇10页的关于机器翻译现状的概述。这次和次年的IBM - MIT记忆会议强调了两个基本需求：长期基础研究和MT行动中的示范。这为随后的几年奠定了基础并确定了MT研究的主要方向。

1951年——巴尔·希勒尔被任命为第一个全职MT研究员

1952年——麻省理工学院召开第一个MT国际会议

1953年——IBM - MIT记忆会议

MT在行动！

MT的全面行动正在苏联进行。到1951年春天，近五十名工程师已在研究这台机器，到1952年秋天，精密机械和计算机工程研究所S.A. Lebedev的BESM-1：第一台计算机开始运行。此时，它是欧洲最快的电子计算机之一。它还被用作第一台中国计算机的原型，该计算机是在苏联工程师的帮助下建造的。

BESM-1有1024字的读写存储器和1024字的只读存储器。它还有外部存储：四个磁带单元，每个存储3万个字，以及容量为5120字且访问速率为每秒800字的快速磁鼓存储。对于那个时代来说，这是一个令人难以置信的能力！

1952年——苏联完成了BESM-1的创建

在其发明四年后，即1954年，乔治城机器通过公开演示展示了其能力。精心策划的一组49个俄语句子被翻译成英语。值得注意的是，这种翻译是使用极为有限的250个单词的词汇和仅六条语法规则完成的。

乔治城机器首次公开演示MT系统

这次演示引起了广泛的关注，成为机器翻译历史上最具影响力的实例之一。该实验是IBM两名员工卡斯伯特·赫德（Cuthbert Hurd）和彼得·谢里丹（Peter Sheridan），以及乔治城大学语言和语言学研究所的利昂 ·多斯特尔特和保罗·加尔文（Paul Garvin）的合作成果。

乔治城机器演示期间使用的打孔卡

乔治城机器能力的吸引人展示引发了一股乐观和兴奋的浪潮。更重要的是，演示的成功吸引了大量资金和支持，为机器翻译领域的进一步发展提供了坚实基础。

1954年——乔治城机器首次公开演示MT系统

与此同时，在大西洋彼岸，Nuffield基金会向伦敦大学Birkbeck学院提供了慷慨的资助，使其能够全职进行MT翻译项目。

1955年——Nuffield基金会向伦敦大学Birkbeck学院提供资助

1956年，在Birkbeck学院进行了几次令人印象深刻的机器翻译演示，使用APEXC（全功能电子计算机）。

同年，麦卡锡（McCarthy）、马文·明斯基（Marvin Minsky）、纳撒尼尔·罗切斯特（Nathaniel Rochester）和克劳德·香农（Claude Shannon）组织了一个约8周的研讨会。其名称为达特茅斯夏季人工智能研究项目。正是这个小组首次将人工智能命名为一门科学。

APEXC（通用电子 (X) 计算机）

1956年——在英国Birkbeck学院演示了APEXC上的MT实验

1956年——达特茅斯夏季人工智能研究项目

这些年，围绕MT的热情高涨，研究和开发小组在各地涌现。1957年，雷·所罗门诺夫（Ray Solomonoff，达特茅斯工作坊的原始十名邀请者之一）发表了第一篇关于机器学习的论文《归纳推理机器》。

1957年——雷·所罗门诺夫发表了第一篇关于机器学习的论文《归纳推理机器》

1959年，IBM展示了他们的杰作，自动语言翻译系统家族的第一成员，名为“Mark I”。

它由一个65000字的词典和一个定制的基于管子的计算机进行查找操作组成。文本通过定制的西里尔字母终端手工复制到打孔卡上，然后输入机器进行翻译。

1964年在纽约世界博览会的IBM馆内公开演示Mark 1

该系统为美国空军安装，生产了多年的翻译。它是一台定制计算机，使用一个包含17万个词和短语的高速光盘将俄语文件翻译成英语。

1959年——IBM演示自动语言翻译器“Mark 1”

这不是美国唯一使用的MT系统。乔治城大学Michael Zarechnak领导的小组提出了Georgetown自动翻译（GAT）的方法，并于1961年和1962年成功演示。结果，俄英系统于1963年安装在欧洲原子能共同体，1964年安装在美国原子能委员会的橡树岭国家实验室。

1962年——乔治城大学Michael Zarechnak领导的小组提出了Georgetown自动翻译（GAT）的方法

失望与MT的衰落

20世纪60年代中期，美国政府开始质疑MT在财务上是否合理以及是否像人类一样有效。在世界各地建立的许多研究小组中，人们逐渐认识到MT比他们预想的要困难得多。接下来的几年是失望的时期。

此外，1964年，美国政府成立了自动语言处理咨询委员会（ALPAC），以评估机器翻译的进展和潜力。

1964年——成立自动语言处理咨询委员会（ALPAC）评估MT研究现状

1966年11月，ALPAC报告的发布“粉碎”了机器翻译。这导致了资金的显著减少和转向计算语言学的更理论研究。报告的影响深远，甚至引发了研究人员之间关于类似评估的讨论。虽然ALPAC的臭名昭著众所周知，但报告的实际内容往往被遗忘或误解。题为《语言和机器：计算机在翻译和语言学中的应用》，它不仅涉及机器翻译，还涉及更广泛的计算语言学领域，尽管实际上，NLP研究当时主要集中在MT上。

1966年——ALPAC报告发布

一些人谴责ALPAC报告狭隘、有偏见且目光短浅。然而，它的影响深远。它几乎终结了美国多年的MT研究，MT被视为彻底失败。

在接下来的十年里，研究人员发生了什么变化，使他们能够再次进入“语言和机器”概念？这一关键时期将见证对自然语言处理实际应用的关注转移，统计模型的出现将为打破语言障碍的梦想注入新的生命。

未完待续…

举报/反馈

猜想笔记

471获赞 106粉丝

探索AI边界。

关注