当前位置:首页 > 元宇宙 > AI

Meta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA

来源: 责编: 时间:2024-05-21 17:25:17 120观看
导读 【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新

【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新 SOTA。Z6b28资讯网——每日最新资讯28at.com

GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式!为什么这么说?Z6b28资讯网——每日最新资讯28at.com

OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分离开。Z6b28资讯网——每日最新资讯28at.com

然而,这种方法限制了模型,有效融合跨模态信息的能力。Z6b28资讯网——每日最新资讯28at.com

官博介绍,GPT-4o 是「首个端到端」训练的,跨越文本、视觉和音频的模型,所有的输入和输出,都由单个神经网络处理。Z6b28资讯网——每日最新资讯28at.com

而现在,业界首个敢于挑战 GPT-4o 的模型现身了!Z6b28资讯网——每日最新资讯28at.com

最近,来自 Meta 团队的研究人员发布了「混合模态基座模型」——Chameleon(变色龙)。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

论文地址:https://arxiv.org/pdf/2405.09818Z6b28资讯网——每日最新资讯28at.com

与 GPT-4o 一样,Chameleon 采用了统一的 Transformer 架构,使用文本、图像和代码混合模态完成训练。Z6b28资讯网——每日最新资讯28at.com

以类似文本生成的方式,对图像进行离散「分词化」(tokenization),最终生成和推理交错的文本和图像序列。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

这种「早期融合」的方法,所有的 pipeline 从一开始就被映射到一个共同的表示空间,因此模型可以无缝处理文本和图像。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Chameleon 生成的多模态内容Z6b28资讯网——每日最新资讯28at.com

与此同时,这样的设计,为模型训练带来了重大的技术挑战。Z6b28资讯网——每日最新资讯28at.com

对此,Meta 研究团队引入了一系列架构创新和训练技术。Z6b28资讯网——每日最新资讯28at.com

结果表明,在纯文本任务中,340 亿参数 Chameleon(用 10 万亿多模态 token 训练)的性能和 Gemini-Pro 相当。Z6b28资讯网——每日最新资讯28at.com

在视觉问答和图像标注基准上,刷新 SOTA,性能接近 GPT-4V。Z6b28资讯网——每日最新资讯28at.com

不过,不论是 GPT-4o,还是 Chameleon,都是新一代「原生」端到端的多模态基础模型早期探索。Z6b28资讯网——每日最新资讯28at.com

GTC 2024 大会上,老黄描述了迈向 AGI 最终愿景的重要一步 —— 各种模态互通有无。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

下一个开源 GPT-4o 要来?

Chameleon 的发布,简直就是对 GPT-4o 做出最快的反应。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

有网友表示,token 进,token 出,简直无法去解释。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

甚至还有人称,在 GPT-4o 诞生之后发布得非常扎实的研究,OOS 将迎头赶上。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

不过,目前 Chameleon 模型支持生成的模态,主要是图像文本。缺少了 GPT-4o 中的语音能力。Z6b28资讯网——每日最新资讯28at.com

网友称,然后只需添加另一种模态(音频),扩大训练数据集,「烹饪」一段时间,我们就会得到 GPT-4o...?Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Meta 的产品管理总监称,「我非常自豪能够给予这个团队支持。让我们朝着让 GPT-4o 更接近开源社区的方向迈进一步」。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

或许用不了多久,我们就得到了一个开源版的 GPT-4o。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

接下来,一起看看 Chameleon 模型的技术细节。Z6b28资讯网——每日最新资讯28at.com

技术架构

Meta 在 Chameleon 的论文中首先表示:很多新近发布的模型依旧没有将「多模态」贯彻到底。Z6b28资讯网——每日最新资讯28at.com

这些模型虽然采用了端到端的训练方式,但仍然单独对不同模态进行建模,使用分开的编码器或解码器。Z6b28资讯网——每日最新资讯28at.com

如开头所述,这种做法限制了模型跨模态信息的能力,也难以生成包含任意形式信息的、真正的多模态文档。Z6b28资讯网——每日最新资讯28at.com

为了改进这种缺陷,Meta 提出了一系列「混合模态」的基座模型 Chameleon—— 能够生成文本和图像内容任意交织在一起的内容。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Chameleon 的生成结果,文本和图像交错出现Z6b28资讯网——每日最新资讯28at.com

所谓「混合模态」基座模型,指 Chameleon 不仅使用了端到端的方式从头开始训练,而且训练时将所有模态的信息交织混合在一起,并使用统一的架构处理。Z6b28资讯网——每日最新资讯28at.com

如何将所有模态的信息混合在同一个模型架构中表示?Z6b28资讯网——每日最新资讯28at.com

答案还是「token」。Z6b28资讯网——每日最新资讯28at.com

只要全部表示为 token,就可以把所有模态的信息映射到同一个向量空间中,让 Transformer 无缝处理。Z6b28资讯网——每日最新资讯28at.com

但是,这种做法会带来优化稳定性以及模型扩展性方面的技术挑战。Z6b28资讯网——每日最新资讯28at.com

为了解决这些问题,论文相应地对模型架构进行创新,并使用了一些训练技巧,包括 QK 归一化和 Zloss 等。Z6b28资讯网——每日最新资讯28at.com

同时,论文也提出了将纯文本 LLM 微调为多模态模型的方法。Z6b28资讯网——每日最新资讯28at.com

图像「分词器」

要将所有模态全部表示为 token,首先需要一个强大的分词器。Z6b28资讯网——每日最新资讯28at.com

为此,Chameleon 的团队在 Meta 之前一篇论文的基础上开发了一种新的图像分词器,基于大小为 8192 的 codebook,将规格为 512×512 的图像编码为 1024 个离散的 token。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

文字分词器则基于谷歌开发的 sentencepiece 开源库,训练了一个同时含有 65536 个文本 token 与 8192 个图像 token 的 BPE 分词器。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

预训练

为了彻底激发「混合模态」的潜力,训练数据也是将不同模态打散、混合呈现给模型的,既有纯文本、文本-图像对,也有文本、图像交错出现的多模态文档。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

纯文本数据囊括了 Llama 2 和 CodeLlama 所使用的所有预训练数据,共计 2.9 万亿个 token。Z6b28资讯网——每日最新资讯28at.com

文本-图像对包含了一些公开数据,共计 14 亿对、1.5 万亿个 token。Z6b28资讯网——每日最新资讯28at.com

对于文本和图像交错的数据,论文特意强调没有包含来自 Meta 产品的数据,完全使用公开数据来源,整理出共 4000 亿个 token。Z6b28资讯网——每日最新资讯28at.com

Chameleon 的预训练分两个单独的阶段进行,分别占总训练比例的 80% 和 20%。Z6b28资讯网——每日最新资讯28at.com

训练的第一阶段就是让模型以无监督的方式学习以上数据,第二阶段开始时,先将第一阶段得到的权重降低 50%,并混合更高质量的数据让模型继续学习。Z6b28资讯网——每日最新资讯28at.com

在模型扩展到超过 8B 参数和 1T token 时,训练后期会产生明显的不稳定问题。Z6b28资讯网——每日最新资讯28at.com

由于所有模态共享模型权重,每个模态似乎都有增加 norm 的倾向,与其他模态「竞争」。Z6b28资讯网——每日最新资讯28at.com

这在训练初期不会产生太大的问题,但随着训练的进行、数据超出 bf16 的表达范围时,就会有 loss 发散的现象。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

研究人员将其归因于 softmax 函数所具有的平移不变性,这种现象在单模态模型中也被称为「logit 漂移」(logit drift)。Z6b28资讯网——每日最新资讯28at.com

因此,论文提出了一些架构调整和优化方法来保证稳定性:Z6b28资讯网——每日最新资讯28at.com

-QK 归一化(query-key normalization):将 layer norm 应用于注意力模块中的 query 和 key 向量,从而直接控制 softmax 层输入的 norm 增长。Z6b28资讯网——每日最新资讯28at.com

-在注意力层和前馈层之后引入 dropoutZ6b28资讯网——每日最新资讯28at.com

-在损失函数中使用 Zloss 正则化Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

除了数据来源和架构,论文还大方公开了预训练所用的算力规模。Z6b28资讯网——每日最新资讯28at.com

硬件型号为 80GB 内存的英伟达 A100,7B 版本并行使用 1024 个 GPU 训练了约 86 万个 GPU 小时,34B 模型所用的 GPU 数量则扩大了 3 倍,GPU 小时数超过 428 万。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

作为曾经开源 Llama 2 的公司,Meta 的研究团队确实大方,相比连技术报告都没有的 GPT-4o,这篇有数据有干货的论文可谓「仁至义尽」。Z6b28资讯网——每日最新资讯28at.com

全面超越 Llama 2

具体的实验评估中,研究人员将其分为人工评估和安全测试,以及基准评估。Z6b28资讯网——每日最新资讯28at.com

基准评估

Chameleon-34B 使用了比 Llama 2 多四倍的 token 进行训练后,在各种单模态的基准测试中都取得了惊艳的效果。Z6b28资讯网——每日最新资讯28at.com

在纯文本任务生成中,研究人员将预训练(非 SFT)模型的纯文本功能与其他领先的纯文本 LLM 进行比较。Z6b28资讯网——每日最新资讯28at.com

评估内容包括,常识推理、阅读理解、数学问题和世界知识领域,评估结果如下表所示。Z6b28资讯网——每日最新资讯28at.com

- 常识推理和阅读理解Z6b28资讯网——每日最新资讯28at.com

可以观察到,与 Llama 2 相比,Chameleon-7B 和 Chameleon-34B 更具竞争力。甚至,34B 甚至在 5/8 的任务上超过了 Llama-2 70B,性能与 Mixtral-8x7B 相当。Z6b28资讯网——每日最新资讯28at.com

- 数学和世界知识Z6b28资讯网——每日最新资讯28at.com

尽管进行了其他模态的训练,但两个 Chameleon 模型都表现出很强的数学能力。Z6b28资讯网——每日最新资讯28at.com

在 GSM8k 上,Chameleon-7B 的表现优于相应参数规模的 Llama 2 模型,性能与 Mistral-7B 相当。Z6b28资讯网——每日最新资讯28at.com

此外,Chameleon-34B 在 maj@1(61.4 vs 56.8)和 Mixtral-8x7B 在 maj@32 (77.0 vs 75.1)上的表现均优于 Llama 2-70B。Z6b28资讯网——每日最新资讯28at.com

同样,在数学运算中,Chameleon-7B 的性能超过 Llama 2,与 Mistral-7B 在 maj@4 上的性能相当,而 Chameleon-34B 的性能超过 Llama 2-70B,接近 Mixtral-8x7B 在 maj@4 上的性能(24.7 vs 28.4)。Z6b28资讯网——每日最新资讯28at.com

总体而言,Chameleon 的性能全面超过了 Llama 2,在某些任务上接近 Mistral-7B / 8x7B。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

在文本到图像任务中,研究人员具体评测了视觉问答、图像标注两项具体任务。Z6b28资讯网——每日最新资讯28at.com

Chameleon 在视觉问答和图像标注任务中打败 Flamingo 和 Llava-1.5 等模型成为 SOTA,在纯文本任务中也和第一梯队的 Mixtral 8x7B、Gemini Pro 等模型表现相当。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

人工评估和安全测试

同时,为了进一步评估模型生成多模态内容的质量,论文也在基准测试之外引入了人类评估实验,发现 Chameleon-34B 的表现远远超过了 Gemini Pro 和 GPT-4V。Z6b28资讯网——每日最新资讯28at.com

相对于 GPT-4V 和 Gemini Pro,人类评委分别打出了 51.6% 和 60.4 的偏好率。Z6b28资讯网——每日最新资讯28at.com

下图展示了,对于一组多样化的、来自人类标注者的 prompt,Chameleon 与基线模型在理解和生成内容方面的性能对比。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

其中的每个问题,都由三个不同的人类标注回答,并将多数票作为最终答案。Z6b28资讯网——每日最新资讯28at.com

为了了解人类标注者的质量,以及问题的设计是否合理,研究人员还检查了不同标注者之间的一致性程度。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

表 5 是对 20,000 个众包提示和 445 个红队交互进行的安全测试,引发模型产生不安全内容。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

与 Gemini 和 GPT-4V 相比,Chameleon 在处理需要交错、混合模态响应的提示时,非常有竞争力。Z6b28资讯网——每日最新资讯28at.com

从示例中可以看到,在完成问答任务时,Chameleon 既能理解输入的文本 + 图像,也能为模型输出内容加上合适的「配图」。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

并且,Chameleon 生成的图像通常与上下文相关,这样一来,这种交错内容的输出对用户来说,极具吸引力。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

贡献团队

论文最后,还放上了参与这项研究的贡献者。Z6b28资讯网——每日最新资讯28at.com

包括预训练、对齐和安全、推理和评估、所有项目的参与者。Z6b28资讯网——每日最新资讯28at.com

其中,* 表示共同一作,†表示关键贡献者,‡表示工作流程负责人,♯表示项目负责人。Z6b28资讯网——每日最新资讯28at.com

Z6b28资讯网——每日最新资讯28at.com

参考资料:Z6b28资讯网——每日最新资讯28at.com

https://the-decoder.com/metas-chameleon-ai-model-blends-text-and-images-hinting-at-a-future-gpt-4o-rival/Z6b28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)Z6b28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4337-0.htmlMeta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 阿尔特曼谈 GPT-5:功能或类似“虚拟大脑”,将是一种特别尝试

下一篇: 育碧 CEO:将使用 AI 技术开发更有活力、更丰富的游戏

标签:
  • 热门焦点
Top
Baidu
map