多模态大模型多元路径中，智源提出一种收敛可能

2024年中下旬，大模型赛道逐渐冷静，零星动态更新也主要聚焦于多模态领域。相较于大语言模型逐渐收敛的技术趋势，多模态领域技术路线暂时呈现多元化态势，如OpenAI Sora 基于Diffusion Transformer架构，生数科技的核心是使用一个统一的底层架构U-ViT来处理图像、3D、视频等多类复杂生成任务。

10月21日，智源研究院提出一种新训练范式，发布原生多模态世界模型Emu3，可实现视频、图像、文本三种模态的统一理解与生成。原理上，Emu3基于自回归技术路线（Autoregressive Model），只基于下一个token（输入数据的基本单位）预测，无需扩散模型或组合式方法，将图像、文本和视频编码为一个离散空间，在多模态混合序列上从头开始联合训练一个Transformer。

自回归技术路线属于多模态大模型领域的一种方法，核心思想是利用序列数据中的时间依赖性来预测未来的数据点。该类型模型中，不同模态数据共享同一套参数，可实现跨模态的关联和生成，无需人工设计的特征工程。同时因自回归技术路线的特点，在生成数据时模型必须按顺序进行，限制了并行计算的能力，导致生成速度较慢。也会遇到长期依赖问题，即模型难以捕捉序列中较远距离的依赖关系。

此前，谷歌与麻省理工学院（MIT）何恺明团队联合推进了一个新研究项目，推出名为Fluid的视觉自回归模型，采用连续token生成方式和随机顺序生成机制。国内市场中，智源研究院作为非营利性研究组织，率先推出自回归路线多模态模型，初衷为攻克大模型领域原始创新，目标在资源允许的情况下，在国际开源社区中展现中国技术实力与训练成果。目前智源研究院已开源了Emu3生成和理解一体的预训练模型以及相应的SFT训练代码，以方便后续研究和社区构建与集成。

Emu3之前，多模态生成任务主要由以Stable Diffusion为代表的扩散模型所主导，多模态理解任务由CLIP视觉编码器与LLM结合的组合式方法所主导。采访中，智源研究院院长王仲远对记者表示，Emu3证明了下一个token预测可以在多模态任务中有高性能的表现，有机会将基础设施建设收敛到一条技术路线上，为大规模的多模态训练和推理提供基础。

此前一位国内头部大模型企业人员对记者表示，大语言模型是多模态模型的“智商”基础，不论文生图还是图生视频模型，都需要大语言模型作为底座，再通过其他路径将不同模型连接，实现最终的多模态。王仲远对记者表示，Emu3有别于这类组合方法，采用的是原生统一的多模态技术范式。虽然多模态大模型训练所需资源并不比大语言模型要少，但可以极大程度上复用现有基础设施，包括技术范式与GPU集群等。

另外针对目前行业从训练端转向推理端的趋势变化，王仲远对记者表示，在技术路线收敛的趋势下，厂商会更积极地探索模型的落地场景。从乐观的角度来看，说明基础大模型已经达到一定的能力水平。另从谨慎的角度来说，训练转推理说明仅靠市场驱动，会令厂商陷入“追随者”的境地，不利于原始技术创新。

当下，王仲远称，研发多模态技术路线是比大语言模型更重要的时间节点，因为后者主要跟随已被验证的ChatGPT技术路线，而如今的多模态领域还处于非常早期。

至于Emu3模型的具体落地场景方向，王仲远表示，机器人大脑、自动驾驶、多模态对话和推理等都是潜在的应用方向。

(本文来自第一财经)

举报/反馈

第一财经

1438万获赞 211.3万粉丝

第一财经专业创造价值

第一财经官方账号,优质财经领域创作者

关注