文|林炜鑫

编辑|邓咏仪

11月初新发布的大模型「Yi」这两天卷入一场争议。科技新闻社区Hacker News的一篇帖子指出,Yi-34B模型完全使用了LLaMa的架构,只是重新命名了两个张量(Tensor,通常用来表示模型的输入、输出和参数),却未提及LLaMa。

帖子引起业内关注

「Yi」是由李开复创办的AI公司「零一万物」打造的国产开源大模型,拥有200K上下文窗口,可处理约40万字文本。自推出后,零一万物表示,Yi模型在Hugging Face英文开源社区平台和C-Eval中文评测榜单中,取得多项SOTA国际最佳性能指标认可,成为第一家登顶Hugging Face全球开源模型排行榜的国产模型。

零一万物昨日回应表示,Yi模型的研发借鉴了行业顶尖水平的公开成果;之所以改名是为了满足训练实验的需求;团队将更新代码。

这场争议的源头是零一万物Hugging Face社区的一条留言。一位ID名为「ehartford」的工程师数天前便发现了这个问题,并指出,由于meta在LLaMa架构投入大量成本,有必要在代码中保留LLaMa的名称。

ehartford朝Yi团队喊话

有开发者跟帖道:“如果他们确实用了Meta LLaMa结构、代码库和所有相关资源,需要遵守LLaMa规定的许可协议。”

而LLaMa的许可协议里提到,开发者有义务提供一个“Notice”文本文件,保留LLaMa的版权归属。

因此,另一位开发者动手把张量名字改了回去,重新放到Hugging Face上。

很快,有人翻出了前阿里首席AI科学家、 AI创业者贾扬清的朋友圈:

贾扬清朋友圈

需要区别的是,Yi引发的争议在于其模型架构的命名,与抄袭、简单套壳有本质区别。LLaMa本就是开源的模型,使用LLaMa的架构是正常的大模型训练步骤,即使是选择同一种架构,用不同数据集训练出来的模型也会截然不同。

一位开发者则向36氪表示,外界苛责的是使用开源LLaMa-2模型架构,却改了名字,“好比造了跟奔驰一样的车,把牌子换了名字,把方向盘改为动力控制转向器”。在他看来,用了LLaMa架构,“大方承认就好”。

有开发者晒出Yi和LLaMa的代码对比

昨天下午,「Yi」团队开源总监在Hugging Face社区回复,命名问题是团队的疏忽,“在大量的训练实验中,我们对代码进行了多次重命名以满足实验要求,但在发布前没有将它们切换回来”。他表示,团队将把张量名字从Yi改回LLaMa,并且重新发布。

Yi团队在社区上的回应

针对此事,零一万物向36氪回应称:

就零一万物的观察和分析,大模型社区在技术架构方面现在是一个处于接近往通用化逐步收拢的阶段,基本上国际主流大模型都是基于 Transformer 的架构,做 attention,activation, normalization,positional embedding 等部分的改动,LLaMA、Chinchilla、Gopher 等模型的架构和 GPT 架构大同小异,全球开源社区基于主流架构的模型变化非常之多,生态呈现欣欣向荣,国内已发布的开源模型也绝大多数采用渐成行业标准的 GPT/LLaMA 的架构。然而,大模型持续发展与寻求突破口的核心点不仅在于架构,而是在于训练得到的参数。

模型训练过程好比做一道菜,架构只是决定了做菜的原材料和大致步骤,这在大多数人的认知中也是收敛的。要训练出好的模型,还需要更好的“原材料”(数据)和对每一个步骤细节的把控(训练方法和具体参数)。由于大模型技术发展还在非常初期,从技术观点来说,行业共识是与主流模型保持一致的模型结构,更有利于整体的适配与未来的迭代。

零一万物在训练模型过程中,沿用了 GPT/LLaMA 的基本架构,由于 LLaMA 社区的开源贡献,让零一万物可以快速起步。零一万物从零开始训练了 Yi-34B 和 Yi-6B 模型,并根据实际的训练框架重新实现了训练代码,用自建的数据管线构建了高质量配比的训练数据集(从 3PB 原 始数据精选到 3T token 高质量数据 )。除此以外,在 Infra 部分进行算法、硬件、软件联合端到端优化,实现训练效率倍级提升和极强的容错能力等原创性突破。这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用跟价值。

零一万物团队在训练前的实验中,尝试了不同的数据配比科学地选取了最优的数据配比方案,投注大部分精力调整训练方法、数据配比、数据工程、细节参数、baby sitting(训练过程监测)技巧等。这一系列超越模型架构之外,研究与工程并进且具有前沿突破性的研发任务,才是真正属于模型训练内核最为关键、能够形成大模型技术护城河 know-how 积累。在模型训练同时,零一万物也针对模型结构中的若干关键节点进行了大量的实验和对比验证。举例来说,我们实验了 Group Query Attention(GQA)、Multi-Query Attention(MQA)、Vanilla Attention 并选择了 GQA,实验了 Pre-Norm 和 Post-Norm 在不同网络宽度和深度上的变化,并选择了 Pre-Norm,使用了 RoPE ABF 作为 positional embedding 等。也正是在这些实验与探索过程中, 为了执行对比实验的需要,模型对部分推理参数进行了重新命名。

在零一万物初次开源过程中,我们发现用和开源社区普遍使用的 LLaMA 架构会对开发者更为友好,对于沿用 LLaMA 部分推理代码经实验更名后的疏忽,原始出发点是为了充分测试模型,并非刻意隐瞒来源。零一万物对此提出说明,并表达诚挚的歉意,我们正在各开源平台重新提交模型及代码并补充 LLaMA 协议副本的流程中,承诺尽速完成各开源社区的版本更新。

我们非常感谢社区的反馈,零一万物在开源社区刚刚起步,希望和大家携手共创社区繁荣,在近期发布 Chat Model 之后,我们将择期发布技术报告,Yi Open-source 会尽最大努力虚心学习,持续进步。

欢迎交流

举报/反馈

36氪

613万获赞 54.5万粉丝
36氪官方账号。每一条新闻都有价值
鲲鹏计划获奖作者,36氪官方账号,优质财经领域创作者
关注
0
0
收藏
分享