全球首个多模态世界模型Emu3来了！智源王仲远：为多模态大模型训练范式指明新方向

智源Emu3生成的 AI 视频案例

全球首个原生多模态世界模型来了。

钛媒体App获悉，10月21日，北京 AI 领域新型非营利研究机构北京智源人工智能研究院（以下简称“智源研究院”，BAAI）发布采用了自回归（autoregressive）技术路线的原生多模态世界模型Emu3，并同步上线技术文档、开源关键技术等供产业界进一步探索。

据悉，Emu3参数量为8B（80亿），只基于下一个token（输入数据的基本单位）预测，无需扩散模型或组合式方法，把图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer模型。该模型实现了视频、图像、文本三种模态的统一理解与生成，传统模型则只能处理一种类型。而在图像生成、视觉语言理解、视频生成任务中，Emu3的表现超过了图像生成模型Stable Diffusion SDXL 、视觉语言理解模型LLaVA、视频生成模型OpenSora等国内外主流开源模型，展示了国际领先的 AI 技术。

智源研究院院长王仲远向钛媒体App等表示，Emu3证明了下一个token预测能在多模态任务中有高性能的表现，这为构建多模态AGI提供了广阔的技术前景。Emu3有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础，这一简单的架构设计将利于产业化。未来，多模态世界模型将促进机器人大脑、自动驾驶、多模态对话和推理等场景应用。

王仲远强调，行业一定会有一个统一的多模态模型。

“智源会坚持做原始创新。我们认为原生大一统的多模态大模型，是整个大模型发展技术路线上必须要去攻克的一个技术方向。Emu3是全球首个基于该技术路线的原生多模态世界模型，并面向国际社区进行了开源。”王仲远坦言，中国在大模型的技术路线上要有自己的核心技术，而Emu3能为多模态大模型训练范式指明新的方向。

图像文本视频大一统，王仲远：原生多模态世界模型处在“GPT-3时刻”

智源研究院成立于2018年11月，是全球最早开展 AI 大模型的中国非营利性新型研究机构，也是北京市继脑科学与类脑研究中心、量子信息科学研究院之后，着力建设的又一个重要的新型研发机构。

智源研究院为了加快 AI 前沿技术落地，围绕大模型、类脑脉冲芯片、认知知识图谱、安全人工智能、疾病脑电、智能信息处理等领先技术的成熟化、工程化建立创新中心，推动 AI 原创成果转化及产业化。

2024年2月，智源研究院宣布王仲远博士担任新任院长，全面负责研究院各项工作。在此之前，王仲远在 AI 学术及产业领域深耕长达15年以上，曾在微软、Facebook（现Meta）、美团、快手等多家头部公司任职过。

Emu3所使用的自回归技术路线的核心思想是利用序列数据中的上下文依赖性来预测未来的数据点。该类型模型中，不同模态数据共享同一套参数，可实现跨模态的关联和生成，无需人工设计的特征工程。同时因自回归技术路线的特点，在生成数据时模型必须按顺序进行，限制了并行计算的能力，导致生成速度较慢。也会遇到长期依赖问题，即模型难以捕捉序列中较远距离的依赖关系。

所谓“世界模型”是目前技术流派中难度最高的一种，其特点在于让机器能够像人类一样对真实世界有一个全面而准确的认知，不仅包括对事物的描述和分类，还包括对事物的关系、规律、原因和结果的理解和预测，从而进行推理和决策，而“世界模型”也被认为是通往AGI的最优解。

同期，谷歌与麻省理工学院（MIT）何恺明团队联合推进了一个新研究项目，推出名为Fluid的图像自回归模型，采用连续token生成方式和随机顺序生成单张图片；图灵奖得主、Meta首席AI科学家杨立昆（Yann LeCun）领导的Meta AI团队曾推出V-JEPA世界模型，一种通过观看视频来教机器理解和模拟物理世界的方法；李飞飞提到的所谓“空间智能”也是世界模型的一种技术方向；而在国内，智源研究院也率先推出自回归路线多模态世界模型Emu3。

王仲远认为，Emu3的发布意味着大模型能够通过更多维度的数据来理解、学习真实世界。

具体来看，根据智源研究院9月底发布的技术报告，Emu3模型参数量为80亿，包括了文字、图片和视频原始数据，并将视觉数据Token化从而在统一的架构下进行训练，可以生成文字、多样化风格的图片和最长为5秒的视频，并且能持续预测下一个Token词元。

评测结果显示，英文提示词下，该模型图片生成得分为70.0分，领先于Stability AI于2023年7月推出的SDXL的66.9，落后于OpenAI于2023年8月推出的DALL E3的73.4分；文生视频得分则为81.0分，领先于今年6月开源的OpenSora 1.2的79.6分；语言能力，技术报告未提供相关测评数据，主要由于Emu3语言类数据占比小，参数远小于市面上其他的语言大模型，因此目前语言能力并不在第一梯队，但Emu3模型词汇量达184622，上下文长度达到131072，具有很多语言模型的技术能力。

王仲远认为，目前采用自回归架构构建统一的多模态世界模型仍处在应用爆发前的“GPT-3时刻”，如今的多模态领域还处于非常早期，因此Emu3只是在前沿技术层面证明了该路线的可能性，未来仍需和产业界合作进一步扩大训练规模，并将Emu3推向大众能够触及的应用。

算力、数据、生态仍是当前多模态世界模型的挑战

事实上，近期关于“OpenAI研发的 AI 模型技术是否是未来通用人工智能（AGI）的方向”争议颇多。其中，苹果公司内部员工承认“生成式AI技术落后竞品两年以上”，外部直接质疑OpenAI o1的AI推理能力较差，无法解决部分小学数学题内容；而杨立昆则直言，今天的AI大模型比猫还笨，甚至认为Sora并不能真的理解物理世界，这样的视频生成与世界模型的因果预测仍然存在巨大差异。

对此，王仲远向钛媒体App坦言，他部分认同杨立昆的说法，确实需要多模态世界模型通往AGI目标，但不一定要借鉴生物大脑设计多个可以类比的自主性 AI 系统子功能模块这种方案。

“杨立昆提的关于现在大模型比猫还笨，很重要的一个论点是他认为纯语言模型无法抵达AGI。我们也认为纯语言模型是不够的，因为仅从文本层面无法完全理解世界。事实上，一些科学家，包括谢赛宁博士，在尝试通过视觉信号直接触发智能能力的技术路线。语言是重要的，但只有语言是不够的。如果要理解感知、推理这个世界，首先要看得到、感觉到世界，才能把不同模态的信息进行交互理解。这恰恰是Emu3统一多模态技术路线的重要贡献。但另一方面，对于杨立昆提出来仿照人脑设计自主AI系统模块，我认为应该永远鼓励和支持不同的技术路线的探索，统一多模态世界模型就是其一。”王仲远表示。

Keras之父Francois Chollet也认为，大模型通过提示使用时，无法理解与训练数据中情况大相径庭的情况，因此不具备通用智能，而大模型的主要作用是作为实际AGI的知识和程序存储，它们是一种记忆形式，而智能不仅仅是记忆。

不过，当前Emu3这种原生多模态世界模型依然存在诸多“局限性”，比如整个训练数据规模不够大，低于Emu2的370亿参数和人类的860万亿-1000万亿神经元规模，使得语言效果无法达到GPT-o1水平；算力规模不够大，目前智源的AI异构算力平台与行业最大规模的算力集群规模依然有一定距离；另外，当前世界模型路线没有生态和实践者，亟待更多企业和大公司进行商业落地，从而验证这条路线的正确性。

“我们需要更多资源，例如，Emu3参数扩大10倍所需的算力、工程化的能力是指数级增加的，所以需要合作伙伴和我们一起训练下一代的模型。”王仲远对钛媒体App表示。

谈及预训练大模型不再训练时，王仲远强调，在技术路线收敛的趋势下，厂商会更积极地探索模型的落地场景。从乐观的角度来看，说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说，训练转推理说明仅靠市场驱动，会令厂商陷入“追随者”的境地，不利于原始技术创新。

“我们一直强调智源的定位，是做原始创新，做企业不愿意做，高校做不了的事情，所以这使得我们必须做下一代 AI 技术探索，做未来3年-5年可能被行业认可的技术路线。在多模态方向上，智源需要为整个行业指明一个方向。”王仲远称。

以下是智源研究院团队与钛媒体App等部分对话交流整理：

问：相比Emu 2，Emu3模型参数量减少，幻觉会不会更严重？

智源研究院：首先简单介绍Emu3 和 Emu 2的技术区别。Emu2 视觉用的还是embedding 的方式，Emu3 变成了离散的token。Emu1，Emu 2 是概念验证加探索迭代。当时用了预训好的语言模型和扩散的decoder，快速验证统一的生成式是否能走通，智源是国际上最早做的探索。因为不需要训练语言模型，基于已有的，成本会比较低。Emu3我们是完全从头训练，是为视频图像文本原生多模态设计的。

问：Emu3视频好像最多 5 秒 24 的FPS，这与其他预测模型的区别？

智源研究院：下一个 token 天然的好处是本身就可以续写，看到前面的 token预测后面的token，可以无限续下去。只是如果在一个场景续写，看到的长视频都是一个场景，意义不大。现在整体的续写能力还没有突破长的有情节的视频生成。Emu3这套框架的独特优势就是因果性，可以基于前面发生的事情预测后面发生的事情，而不是基于一堆噪声去想象。Emu3现在可以 5 秒一直续写。

问：有没有计划在科学计算上的应用？

智源研究院：AI for Science 多模态是非常必须的。GPT 3 到ChatGPT 花了两年半的时间，Emu3好比当年的 GPT3，Emu3是一个中间的milestone（里程碑），下一个期待类似 ChatGPT 的的milestone。

问：智源未来三到五年之内的重点是什么？

智源研究院：继续研发原生多模态世界模型Emu系列，解决更大规模的数据、算力以及训练。统一多模态基座大模型是人工智能进入到物理世界非常重要的基座。多模态具身大脑也是研究院正在做的研究。今年我们也看到了诺贝尔的物理学奖给了Hinton教授，化学奖是给了DeepMind团队。AI for Science 也是智源非常关注的重要研究方向。

问：从 To C端角度来说，APP肯定是最好的方式，智源未来有没有计划和一些其他合作伙伴推出一些 c 端 APP？

智源研究院：当前市场上的语言模型APP 已经开始基于百亿模型在使用，这个前提是有了千亿、万亿模型，达到更高的性能，百亿模型效果随之更好。而现在，多模态大模型还在不断探索能力上限。智源探索出了Emu3这样一条技术路线，那么接下来需要展示，也期待在多模态领域的“ChatGPT” 的时刻。

我想再一次强调Emu3架构的优越性，将来多模态大模型都能够非常容易使用，这是Emu3模型的意义。

（本文首发于钛媒体App，作者｜林志佳，编辑｜胡润峰）

举报/反馈

钛媒体APP

227万获赞 37.2万粉丝

犀利、前沿、独家，引领未来商业与生活新知

钛媒体APP官方账号,优质科技领域创作者,鲲鹏计划获奖作者

关注