当前位置:首页 > 元宇宙 > AI

英伟达开源 3400 亿巨兽:98% 合成数据训出最强开源通用模型,性能对标 GPT-4o

来源: 责编: 时间:2024-06-18 16:57:01 83观看
导读 【新智元导读】刚刚,英伟达全新发布的开源模型 Nemotron-4 340B,有可能彻底改变训练 LLM 的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude so

【新智元导读】刚刚,英伟达全新发布的开源模型 Nemotron-4 340B,有可能彻底改变训练 LLM 的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 掰手腕!ibV28资讯网——每日最新资讯28at.com

就在刚刚,英伟达再一次证明了自己的 AI 创新领域的领导地位。ibV28资讯网——每日最新资讯28at.com

它全新发布的 Nemotron-4 340B,是一系列具有开创意义的开源模型,有可能彻底改变训练 LLM 的合成数据生成方式!ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

论文地址:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdfibV28资讯网——每日最新资讯28at.com

这一突破性进展,标志着 AI 行业的一个重要里程碑 ——ibV28资讯网——每日最新资讯28at.com

从此,各行各业都无需依赖大量昂贵的真实世界数据集了,用合成数据,就可以创建性能强大的特定领域大语言模型!ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

现在,Nemotron-4 340B 已经取得了辉煌战绩,直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 一较高下!ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

▲其实,以前这个模型就曾登上大模型竞技场 LMSys Chatbot Arena,当时它的别名是「june-chatbot」

具体来说,Nemotron-4 340B 包括基础模型 Base、指令模型 Instruct 和奖励模型 Reward,并构建了一个高质量合成数据生成的完整流程。ibV28资讯网——每日最新资讯28at.com

模型支持 4K 上下文窗口、50 多种自然语言和 40 多种编程语言,训练数据截止到 2023 年 6 月。ibV28资讯网——每日最新资讯28at.com

训练数据方面,英伟达采用了高达 9 万亿个 token。其中,8 万亿用于预训练,1 万亿用于继续训练以提高质量。ibV28资讯网——每日最新资讯28at.com

值得一提的是,指令模型的训练是在 98% 的合成数据上完成的。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

结果显示,Nemotron-4-340B-Base 在常识推理任务,如 ARC-Challenge、MMLU 和 BigBench Hard 基准测试中,可以和 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 模型媲美。ibV28资讯网——每日最新资讯28at.com

而 Nemotron-4-340B-Instruct,在指令跟随和聊天能力方面也超越了相应的指令模型。ibV28资讯网——每日最新资讯28at.com

Nemotron-4-340B-Reward 在发表时,在 RewardBench 上实现了最高准确性,甚至超过了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 这样的专有模型。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

在 BF16 精度下,模型的推理需要 8 块 H200,或 16 块 H100 / A100 80GB。如果是在 FP8 精度下,则只需 8 块 H100。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

除此之外,Nemotron-4 340B 还有一个非常显著的特点 —— 对商用十分友好的许可。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

高级深度学习研究工程师 Somshubra Majumdar 对此表示大赞:「是的,你可以用它生成你想要的所有数据」ibV28资讯网——每日最新资讯28at.com

无与伦比的合成数据生成

LLM 无法获得大规模、多样化标注数据集,怎么破?ibV28资讯网——每日最新资讯28at.com

Nemotron-4 340B 指令模型,可以帮助开发者生成合成训练数据。ibV28资讯网——每日最新资讯28at.com

这些多样化的合成数据,模仿了真实世界的数据特征,因而数据质量明显提升,从而提升了各领域定制 LLM 的性能和稳定性。ibV28资讯网——每日最新资讯28at.com

而且,为了进一步提高 AI 生成数据的质量,开发者还可以用 Nemotron-4 340B 奖励模型,来筛选高质量的响应。ibV28资讯网——每日最新资讯28at.com

它会根据有用性、正确性、一致性、复杂性和冗长性这 5 个属性,对响应评分。ibV28资讯网——每日最新资讯28at.com

另外,研究者可以使用自己的专用数据,再结合 HelpSteer2 数据集,定制 Nemotron-4 340B 基础模型,以创建自己的指令或奖励模型。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

用 NeMo 微调,用 TensorRT-LLM 优化推理

利用开源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM,开发者可以优化指令模型和奖励模型的效率,从而生成合成数据,并对响应进行评分。ibV28资讯网——每日最新资讯28at.com

所有 Nemotron-4 340B 模型都利用张量并行性经过 TensorRT-LLM 优化,这种模型并行性可以将单个权重矩阵分割到多个 GPU 和服务器上,从而实现大规模高效推理。ibV28资讯网——每日最新资讯28at.com

其中,基础模型可以使用 NeMo 框架进行定制,以适应特定的用例或领域。广泛的预训练数据使得我们可以对它进行微调,并且为特定的下游任务提供更准确的输出。ibV28资讯网——每日最新资讯28at.com

通过 NeMo 框架,英伟达提供了多种定制方法,包括监督微调和参数高效微调方法,如低秩适应(LoRA)。ibV28资讯网——每日最新资讯28at.com

为了提高模型质量,开发者可以使用 NeMo Aligner 和由 Nemotron-4 340B 奖励模型标注的数据集来对齐模型。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

在各行业的潜在影响:从医疗到金融及其他领域

显然,Nemotron-4 340B 对各行业的潜在影响是巨大的。ibV28资讯网——每日最新资讯28at.com

在医疗领域,如果能生成高质量合成数据,可能会带来药物发现、个性化医疗和医学影像方面的突破。ibV28资讯网——每日最新资讯28at.com

在金融领域,基于合成数据训练的定制大语言模型,则可能会彻底改变欺诈检测、风险评估和客户服务。ibV28资讯网——每日最新资讯28at.com

在制造业和零售业方面,特定领域的 LLM 可以实现预测性维护、供应链优化和个性化客户体验。ibV28资讯网——每日最新资讯28at.com

不过,Nemotron-4 340B 的发布,也提出了一些隐忧,比如数据隐私和安全怎样保证?ibV28资讯网——每日最新资讯28at.com

随着以后合成数据的普及,企业是否有防护措施来保护敏感信息,并防止滥用?ibV28资讯网——每日最新资讯28at.com

如果用合成数据训练 AI 模型,是否会引发伦理问题,比如数据中的偏见和不准确可能引发意料外的后果?ibV28资讯网——每日最新资讯28at.com

但至少在目前,越来越多迹象表明,只有合成数据才是未来。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

预训练

下面,我们就来看看,英伟达都提出了哪些创新的方法:ibV28资讯网——每日最新资讯28at.com

数据

预训练数据是基于三种不同类型的混合,共有 9T token。其中,前 8T 用于正式预训练阶段,最后 1T 用于继续预训练阶段。ibV28资讯网——每日最新资讯28at.com

英语自然语言(70%):由不同来源和领域的精选文档组成,包括网页文档、新闻文章、科学论文、书籍等。ibV28资讯网——每日最新资讯28at.com

多语种自然语言(15%):包含 53 种自然语言,由单语语料库和平行语料库中的文档构成。ibV28资讯网——每日最新资讯28at.com

代码(15%):包含 43 种编程语言。ibV28资讯网——每日最新资讯28at.com

架构

与 Nemotron-4-15B-Base 类似,Nemotron-4-340B-Base 基于的也是仅解码器 Transformer 架构。ibV28资讯网——每日最新资讯28at.com

具体来说,模型使用因果注意力掩码来确保序列的一致性,并采用旋转位置嵌入(RoPE)、SentencePiece 分词器、分组查询注意力(GQA),以及在 MLP 层中使用平方 ReLU 激活。ibV28资讯网——每日最新资讯28at.com

此外,模型没有偏置项,丢弃率为零,输入输出嵌入不绑定。ibV28资讯网——每日最新资讯28at.com

模型超参数如表 1 所示,有 94 亿个嵌入参数和 3316 亿个非嵌入参数。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

训练

Nemotron-4-340B-Base 使用 768 个 DGX H100 节点进行训练,每个节点包含 8 个基于 NVIDIA Hopper 架构的 H100 80GB SXM5 GPU。ibV28资讯网——每日最新资讯28at.com

每个 H100 GPU 在进行 16 位浮点(BF16)运算时,峰值吞吐量为 989 teraFLOP / s(不含稀疏运算)。ibV28资讯网——每日最新资讯28at.com

英伟达采用了 8 路张量并行、12 路交错流水线并行和数据并行相结合的方法,并使用了分布式优化器,将优化器状态分片到数据并行副本上,以减少训练的内存占用。ibV28资讯网——每日最新资讯28at.com

表 2 总结了批大小增加的 3 个阶段,包括每次迭代时间,以及 GPU 利用率(MFU)等,其中 100% 是理论峰值。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

评估

在这一部分,我们报告了 Nemotron-4-340B-Base 的评估结果。我们将该模型ibV28资讯网——每日最新资讯28at.com

表 3 是 Nemotron-4-340B-Base 与 Llama-3 70B、Mistral 8x22 和 Qwen-2 72B 三款开源模型的比较结果。ibV28资讯网——每日最新资讯28at.com

可以看到,Nemotron-4-340B-Base 在常识推理任务以及像 BBH 这样的流行基准测试中拿下了 SOTA,并在 MMLU 和 HumanEval 等代码基准测试中位列第二。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

对齐奖励模型构建

奖励模型在模型对齐中起着至关重要的作用,是训练强指令跟随模型时用于偏好排序和质量过滤的重要评判者。ibV28资讯网——每日最新资讯28at.com

为了开发一个强大的奖励模型,英伟达收集了一个包含 10k 人类偏好数据的数据集 ——HelpSteer2。ibV28资讯网——每日最新资讯28at.com

与成对排名模型不同,多属性回归奖励模型在区分真实有用性和无关伪影(如仅因长度而偏好较长但无用的回复)方面更有效。此外,回归模型在预测细粒度奖励、捕捉相似回复之间的有用性细微差别方面表现更好。ibV28资讯网——每日最新资讯28at.com

回归奖励模型建立在 Nemotron-4-340B-Base 模型之上,通过用一个新的奖励「头」替换模型的最终 softmax 层。ibV28资讯网——每日最新资讯28at.com

这个「头」是一个线性投影,将最后一层的隐藏状态映射到一个包含 HelpSteer 属性(有用性、正确性、一致性、复杂性、冗长性)的五维向量。ibV28资讯网——每日最新资讯28at.com

在推理过程中,这些属性值可以通过加权求和聚合为一个总体奖励。ibV28资讯网——每日最新资讯28at.com

数据对齐

值得注意的是,在整个对齐过程中,英伟达仅使用了大约 20K 的人工标注数据,而数据生成管线则生成了用于监督微调和偏好微调的 98% 以上的数据。ibV28资讯网——每日最新资讯28at.com

提示生成准备ibV28资讯网——每日最新资讯28at.com

生成合成提示,是合成数据生成(SDG)的第一步。ibV28资讯网——每日最新资讯28at.com

这些提示在不同维度上的多样性至关重要,包括任务多样性(如写作、开放问答、封闭问答)、主题多样性(如 STEM、人文、日常生活)和指令多样性(如 JSON 输出、段落数量、是或否回答)。ibV28资讯网——每日最新资讯28at.com

对此,英伟达使用 Mixtral-8x7B-Instruct-v0.1 作为生成器,分别对这些任务的合成提示进行了生成。ibV28资讯网——每日最新资讯28at.com

单轮合成提示ibV28资讯网——每日最新资讯28at.com

为了收集多样化的主题,英伟达先引导生成器输出一组多样化的宏观主题,然后再为每个合成的宏观主题生成相关的子主题。ibV28资讯网——每日最新资讯28at.com

加上人工收集的,最终得到的主题达到了 3K 个。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

用于合成提示生成的提示如下:ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

合成指令跟随提示ibV28资讯网——每日最新资讯28at.com

为了提升对于对齐模型至关重要的指令跟随能力,就需要生成合成的指令跟随提示(例如,「写一篇关于机器学习的文章,你的回答应包含三个段落」)。ibV28资讯网——每日最新资讯28at.com

具体来说,先随机选择一些合成提示。对于每个合成提示,从「可验证」指令模板中随机生成一个合成指令(例如,「你的回答应包含三个段落」)。然后,使用手动定义的模板将提示和指令连接在一起。ibV28资讯网——每日最新资讯28at.com

除了单轮指令跟随提示外,英伟达还构建了多轮指令跟随提示,这些指令适用于所有未来的对话(例如「根据以下指令回答问题和所有后续问题:[指令开始] 用三个段落回答。[指令结束]」)。ibV28资讯网——每日最新资讯28at.com

此外,英伟达还构建了第二轮指令跟随提示,可以根据给定的指令修改之前的回答。ibV28资讯网——每日最新资讯28at.com

合成两轮提示ibV28资讯网——每日最新资讯28at.com

为了在偏好微调中提高模型的多轮对话能力,英伟达构建了两轮提示来建立偏好数据集。ibV28资讯网——每日最新资讯28at.com

具体来说,提示包含一个用户问题,一个助手回答,和另一个用户问题,形式为「用户:XXX;助手:XXX;用户:XXX;」。ibV28资讯网——每日最新资讯28at.com

英伟达从 ShareGPT 中获取第一个用户提示,并使用中间指令模型生成助手回答和下一轮问题。ibV28资讯网——每日最新资讯28at.com

真实世界的 LMSYS 提示ibV28资讯网——每日最新资讯28at.com

为了更好地模拟真实世界的用户请求,英伟达将 LMSYS-Chat-1M 中的提示按平衡比例进行组合,并将其分为两个不同的集合,一个用于监督学习,另一个用于偏好学习。ibV28资讯网——每日最新资讯28at.com

在监督学习部分,英伟达移除了 LMSYS 中被标记为潜在不安全的提示,以避免引发不良对话。但在偏好学习部分则进行了保留,以便模型能够学习如何区分安全和不安全的响应。ibV28资讯网——每日最新资讯28at.com

从图 3 中可以看到,合成提示的平均有用性高于 LMSYS 提示。由于简单提示更容易「有用」,这意味着 LMSYS 提示比合成单轮提示平均来说更难且更复杂。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

合成对话生成ibV28资讯网——每日最新资讯28at.com

通过监督微调,模型就可以学习到,如何以对话形式与用户互动。ibV28资讯网——每日最新资讯28at.com

英伟达通过提示指令模型生成基于输入提示的响应,来启动合成对话。ibV28资讯网——每日最新资讯28at.com

为了培养多轮对话能力,他们把每个对话设计成包含三轮,好让对话流程更加动态、更有互动性。ibV28资讯网——每日最新资讯28at.com

通过迭代角色扮演,模型会交替模拟助手和用户的角色。ibV28资讯网——每日最新资讯28at.com

英伟达发现,为了在用户回合中引导所需的行为,就需要提供明确的提示来定义不同的用户个性。ibV28资讯网——每日最新资讯28at.com

并且,附上对话历史是至关重要的。ibV28资讯网——每日最新资讯28at.com

他们对用户回合进行了后处理,排除了礼貌陈述(如「谢谢你...」,「当然,我很高兴...」)来模拟真实世界的用户问题。ibV28资讯网——每日最新资讯28at.com

生成演示数据,是采用的贪婪采样方法。ibV28资讯网——每日最新资讯28at.com

此外,英伟达会使用 Nemotron4-340B-Reward 评估对话质量,为每个样本分配一个分数,并过滤掉那些低于预定阈值的样本。ibV28资讯网——每日最新资讯28at.com

这就提供了额外的质量控制层,保证保留下来的都是高质量数据。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

合成偏好数据生成ibV28资讯网——每日最新资讯28at.com

英伟达使用了 10K 人工标注的 HelpSteer2 偏好数据,来训练 Nemotron-4-340B-Reward。ibV28资讯网——每日最新资讯28at.com

不过,他们还需要具有更广泛提示领域、更高质量响应的偏好数据,这些响应来自顶级的中间模型,并在可能的情况下包含额外的真实信号。ibV28资讯网——每日最新资讯28at.com

因此,英伟达生成了三元组形式的合成偏好数据(提示,选择的响应,被拒绝的响应)。ibV28资讯网——每日最新资讯28at.com

生成响应ibV28资讯网——每日最新资讯28at.com

偏好数据包含合成的单轮提示、指令跟随提示、双轮提示,以及来自真实世界的提示,包括 ShareGPT 提示、LMSYS 提示、GSM8K 和 MATH 训练数据集中的提示。ibV28资讯网——每日最新资讯28at.com

对于每个提示,英伟达都使用了随机的中间模型生成响应。ibV28资讯网——每日最新资讯28at.com

通过多个模型生成响应,就能确保偏好数据集具有多样化的响应,以供模型学习。ibV28资讯网——每日最新资讯28at.com

此外,他们还生成了更具挑战性的合成偏好示例,这些示例是根据 MT-Bench 从表现最好的模型中多次随机生成的响应,这样就可以进一步提升模型的性能。ibV28资讯网——每日最新资讯28at.com

以基准真相作为判断标准ibV28资讯网——每日最新资讯28at.com

对于每个提示给出的多个响应,英伟达都需要对其偏好排序进行判断,并选择出被选中的响应和被拒绝的响应。ibV28资讯网——每日最新资讯28at.com

一些任务可以使用基准真相(例如 GSM8K 和 MATH 训练数据集中的答案)或验证器(例如指令跟随响应可以用 Python 程序验证)来评估。ibV28资讯网——每日最新资讯28at.com

以 LLM / 奖励模型为裁判ibV28资讯网——每日最新资讯28at.com

大多数提示,是没有客观答案的。因此,英伟达尝试了以大语言模型为裁判和以奖励模型为裁判。ibV28资讯网——每日最新资讯28at.com

在第一种情况中,英伟达向裁判的大语言模型提供提示和两个响应,并要求其比较这两个响应。ibV28资讯网——每日最新资讯28at.com

为了避免位置偏差,他们会交换响应顺序后,再次询问大语言模型。当大语言模型两次判断一致时,就会选出有效的三元组(提示、被选中的、被拒绝的)。ibV28资讯网——每日最新资讯28at.com

另外,为了进一步探索了以奖励模型为裁判的情况,英伟达要求 Nemotron-4-340B-Reward 预测每个(提示、响应)对的奖励,并根据奖励决定偏好排序。ibV28资讯网——每日最新资讯28at.com

奖励基准得分显示以,奖励模型为裁判的准确性,要高于以大语言模型为裁判。ibV28资讯网——每日最新资讯28at.com

特别是在 Chat-Hard 类别中,选择的响应和被拒绝的响应难以区分,以奖励模型为裁判的表现,要远优于以大语言模型为裁判,平均准确率为 0.87 对 0.54。ibV28资讯网——每日最新资讯28at.com

在这个过程中,英伟达注意到:Chat-Hard 类别的评分对于合成数据生成中的偏好排序特别重要。ibV28资讯网——每日最新资讯28at.com

因此,在后来的数据集迭代中,他们转而使用以奖励模型为裁判。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

从弱到强的迭代对齐ibV28资讯网——每日最新资讯28at.com

如前所述,高质量的数据对于模型的对齐至关重要。ibV28资讯网——每日最新资讯28at.com

在数据合成过程中,需要一个对齐的大语言模型来准确遵循指令。ibV28资讯网——每日最新资讯28at.com

这就引发了一系列重要的问题:哪个模型最适合作为生成器?生成器的强度与数据质量之间有何关系?如何改进数据生成器?ibV28资讯网——每日最新资讯28at.com

受到弱到强泛化的启发,英伟达开发了一种新颖的迭代方法,逐步优化数据。这种方法结合了对齐训练与数据合成的优势,使它们能够相互增强,并且持续改进。ibV28资讯网——每日最新资讯28at.com

图 4 展示了从弱到强的迭代对齐的工作流程。ibV28资讯网——每日最新资讯28at.com

首先,使用一个初始对齐模型来生成对话和偏好数据。然后,通过监督微调和偏好调优,利用它们对更好的基础模型进行对齐。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

有趣的是,英伟达发现,教师模型并不会限制学生模型的上限 ——ibV28资讯网——每日最新资讯28at.com

随着基础模型和对齐数据的改进,新对齐的模型能够显著超过初始对齐模型。注意,对齐过程与基础模型的预训练是并行进行的。ibV28资讯网——每日最新资讯28at.com

在第一次迭代中,英伟达选择了 Mixtral-8x7B-Instruct-v0.1 作为初始对齐模型,因为它是一个具有许可的强大模型。ibV28资讯网——每日最新资讯28at.com

生成的数据用于训练 Nemotron-4-340B-Base 的一个中间检查点,称为 340B-Interm-1-Base。ibV28资讯网——每日最新资讯28at.com

值得注意的是,340B-Interm-1-Base 的表现优于 Mixtral 8x7B 基础模型,这反过来使得最终的 340B-Interm-1-Instruct 模型,能够超过 Mixtral-8x7B-Instruct-v0.1 模型。ibV28资讯网——每日最新资讯28at.com

这就证明,可以通过弱监督引出模型强大的能力。ibV28资讯网——每日最新资讯28at.com

在第二次迭代中,英伟达使用生成的 340B-Interm-1-Instruct 模型,作为新的数据生成器。ibV28资讯网——每日最新资讯28at.com

由于它比 Mixtral-8x7B-Instruct-v0.1 更强,第二次迭代生成的合成数据质量就更高。ibV28资讯网——每日最新资讯28at.com

生成的数据用于训练 340B-Interm-2-Base 模型,使其升级为 340B-Interm-2-Chat 模型。ibV28资讯网——每日最新资讯28at.com

这个迭代过程形成了一个自我强化的飞轮效应,改进主要来自两个方面 ——ibV28资讯网——每日最新资讯28at.com

1)当使用相同的数据集时,基础模型的强度直接影响指令模型的强度,基础模型越强,指令模型也越强;ibV28资讯网——每日最新资讯28at.com

2)当使用相同的基础模型时,数据集的质量决定了指令模型的效果,数据质量越高,指令模型也越强。ibV28资讯网——每日最新资讯28at.com

在整个对齐过程中,英伟达进行了多轮数据生成和改进,不断提升模型的质量。ibV28资讯网——每日最新资讯28at.com

附加数据源ibV28资讯网——每日最新资讯28at.com

此外,英伟达还结合了多个补充数据集,以赋予模型特定的能力。ibV28资讯网——每日最新资讯28at.com

主题跟随ibV28资讯网——每日最新资讯28at.com

主题连贯性和细粒度指令跟随是,指令模型的重要能力。ibV28资讯网——每日最新资讯28at.com

因此,英伟达结合了 CantTalkAboutThis 训练集,其中包括了覆盖广泛主题的合成对话,并故意插入干扰回合以分散聊天机器人对主要主题的注意力。ibV28资讯网——每日最新资讯28at.com

这就能帮助模型,在任务导向的交互中更好地专注于预定的主题。ibV28资讯网——每日最新资讯28at.com

无法完成的任务ibV28资讯网——每日最新资讯28at.com

某些任务可能由于需要特定的能力(如互联网访问或实时知识)而无法由模型独立完成。ibV28资讯网——每日最新资讯28at.com

为减少这种情况下的幻觉,英伟达采用少样本方法,使用人类编写的示例来提示大语言模型生成各种问题。ibV28资讯网——每日最新资讯28at.com

然后,他们会明确要求大语言模型以拒绝的方式回应,收集这些回应,并将其与相应的问题配对。ibV28资讯网——每日最新资讯28at.com

这些配对数据就可以用于训练模型,让它们能够更好地处理无法完成的任务。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

STEM 数据集ibV28资讯网——每日最新资讯28at.com

Open-Platypus 已被证明可以提高 STEM 和逻辑知识。因此,英伟达将具有许可的子集(如 PRM800K、SciBench、ARB 、openbookQA)纳入训练数据中。ibV28资讯网——每日最新资讯28at.com

基于文档的推理和问答ibV28资讯网——每日最新资讯28at.com

基于文档的问答是大语言模型的重要用例。ibV28资讯网——每日最新资讯28at.com

英伟达利用 FinQA 数据集提高了数值的推理能力,使用人工标注数据提高了上下文问答的准确性,并使用 wikitablequestions 数据集,增强了模型对半结构化数据的理解。ibV28资讯网——每日最新资讯28at.com

函数调用ibV28资讯网——每日最新资讯28at.com

此外,英伟达还使用了一部分来自 Glaive AI 的样本,以增强模型在函数调用方面的能力。ibV28资讯网——每日最新资讯28at.com

对齐算法

分阶段的监督微调ibV28资讯网——每日最新资讯28at.com

监督微调(Supervised Fine-tuning,SFT)是模型对齐的第一步。ibV28资讯网——每日最新资讯28at.com

为了改善传统 SFT 方法存在的缺陷,英伟达设计了一种两阶段的 SFT 策略,使模型能够依次、有计划地学习不同的行为。ibV28资讯网——每日最新资讯28at.com

结果显示,这种方法在所有下游任务中都产生了更好的效果。ibV28资讯网——每日最新资讯28at.com

代码 SFTibV28资讯网——每日最新资讯28at.com

为了在不影响其他任务的情况下提高编码和推理能力,英伟达选择先在编码数据上进行 SFT。ibV28资讯网——每日最新资讯28at.com

为了获得大量的数据,英伟达开发了一种名为 Genetic Instruct 的全新方法 —— 通过对进化过程的模拟,利用自我指令和向导编码器突变,从少量高质量种子生成大量合成样本。ibV28资讯网——每日最新资讯28at.com

过程中,英伟达还引入了一种适应度函数,利用 LLM 评估生成指令及其解决方案的正确性和质量。ibV28资讯网——每日最新资讯28at.com

然后,通过这些评估和检查的样本会被添加到种群池中,进化过程会持续进行,直到达到目标种群规模。ibV28资讯网——每日最新资讯28at.com

最终,经过广泛的去重和过滤后,英伟达保留了大约 80 万条样本用于代码 SFT 训练。ibV28资讯网——每日最新资讯28at.com

通用 SFTibV28资讯网——每日最新资讯28at.com

第二阶段,就是通用 SFT 了。ibV28资讯网——每日最新资讯28at.com

这里,英伟达采用的是一个包含 20 万样本的混合数据集。ibV28资讯网——每日最新资讯28at.com

为了减轻遗忘的风险,数据混合中还包括了前一个代码 SFT 阶段的 2% 的代码生成样本。ibV28资讯网——每日最新资讯28at.com

偏好微调ibV28资讯网——每日最新资讯28at.com

在完成监督微调后,英伟达继续通过偏好微调来改进模型。ibV28资讯网——每日最新资讯28at.com

在这个阶段,模型将学习偏好示例,其形式是:提示,选择的响应,被拒绝的响应。ibV28资讯网——每日最新资讯28at.com

直接偏好优化(DPO)ibV28资讯网——每日最新资讯28at.com

DPO 算法通过优化策略网络,来最大化选择和被拒绝响应之间的隐含奖励差距。ibV28资讯网——每日最新资讯28at.com

在策略学习区分选择和被拒绝的响应时,可以观察到,随着差距的增加,选择和被拒绝响应的概率都在一致地下降,即使选择的响应是高质量的。ibV28资讯网——每日最新资讯28at.com

根据经验,当训练时间足够长时,策略网络容易过拟合,一个指标(例如,MT-Bench)的改进通常伴随着其他指标(例如,零样本 MMLU)的退化。ibV28资讯网——每日最新资讯28at.com

为了解决这些问题,英伟达在选择的响应上添加了加权的 SFT 损失,以补充原始的 DPO 损失。ibV28资讯网——每日最新资讯28at.com

额外的 SFT 损失有助于防止策略网络大幅偏离偏好数据,特别是因为偏好数据不是从参考策略生成的。ibV28资讯网——每日最新资讯28at.com

为了避免模型学习低质量的选择响应,当没有可用的真实值时,英伟达使用了 Nemotron-4-340B-Reward 来挑选高质量的选择响应示例。最终,这产生了一个包含 16 万示例的偏好数据集。ibV28资讯网——每日最新资讯28at.com

奖励感知偏好优化(RPO)ibV28资讯网——每日最新资讯28at.com

为了解决 DPO 存在的过拟合问题,英伟达提出了一种新算法 —— 奖励感知偏好优化(RPO)。它尝试使用由策略网络定义的隐含奖励近似奖励差距。ibV28资讯网——每日最新资讯28at.com

基于此,便得到了一个新的损失函数:ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

结果显示,随着 RPO 迭代次数的增加,模型还可以持续地在所有任务上获得提升。ibV28资讯网——每日最新资讯28at.com

经过三次 RPO 训练迭代后的检查点,就是最终的 Nemotron-4-340B-Instruct。ibV28资讯网——每日最新资讯28at.com

指令模型评估

自动基准测试ibV28资讯网——每日最新资讯28at.com

英伟达对 Nemotron-4-340B-Instruct 进行了全面的自动基准测试评估:ibV28资讯网——每日最新资讯28at.com

单轮对话:AlpacaEval 2.0 LC 和 Arena HardibV28资讯网——每日最新资讯28at.com

多轮对话:MT-Bench(GPT-4-Turbo)。需要注意的是,这是原始 MT-Bench 的修正版本,得分平均要低 0.8 分。ibV28资讯网——每日最新资讯28at.com

综合基准测试:MMLU(零样本)ibV28资讯网——每日最新资讯28at.com

数学:GSM8K(零样本)ibV28资讯网——每日最新资讯28at.com

代码:HumanEval(零样本)和 MBPP(零样本)上的 Pass@1 得分ibV28资讯网——每日最新资讯28at.com

指令跟随:IFEvalibV28资讯网——每日最新资讯28at.com

主题跟随:TFEvalibV28资讯网——每日最新资讯28at.com

正如表 5 所示,Nemotron-4-340B-Instruct 在当前可用的开源模型中表现出色,具备很强的竞争力。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

对齐训练包括:代码 SFT、通用 SFT、DPO 和三轮 RPO。ibV28资讯网——每日最新资讯28at.com

表 6 展示了模型最终的成绩,并量化了每个对齐阶段的中间模型的性能:ibV28资讯网——每日最新资讯28at.com

CodeSFT 阶段显著提高了 HumanEval 得分,从基础模型的 57.3 提升到 70.7;ibV28资讯网——每日最新资讯28at.com

接下来的通用 SFT 阶段大幅提升了其他类别的准确性,如 MT-Bench 和 MMLU,尽管 HumanEval 得分略有下降;ibV28资讯网——每日最新资讯28at.com

DPO 阶段进一步提升了大多数指标,但 MT-Bench 的得分略有下降;ibV28资讯网——每日最新资讯28at.com

最后的 RPO 阶段均匀地提升了所有指标。特别是,MT-Bench 得分从 7.90 增加到 8.22,IFEval Prompt-Strict-Acc 的得分从 61.7 增加到 79.9。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

人类评估ibV28资讯网——每日最新资讯28at.com

除了自动评估外,英伟达模型进行了人类评估。其中,标注员被提供了 136 个提示,分为 10 个不同的任务类别。ibV28资讯网——每日最新资讯28at.com

基于「有用性」和「真实性」这两个维度,英伟达详细定义了 5 个质量等级的具体内容,从而在减少了主观性的同时,提升了可靠性。ibV28资讯网——每日最新资讯28at.com

在标注设计中,每个提示都与固定模型集合中的三个不同响应配对。每个提示的响应顺序是随机的,所有提示和响应都由同一组标注员进行评估。ibV28资讯网——每日最新资讯28at.com

标注完成后,将评分转换为相对于 GPT-4-1106-preview 的相对胜 / 平 / 负率。ibV28资讯网——每日最新资讯28at.com

从图 5 中可以看到,除了提取和重写任务外,Nemotron-4-340B-Instruct 的胜率与 GPT-4-1106-preview 相当或更好,特别是在多轮对话中表现出色。ibV28资讯网——每日最新资讯28at.com

整体来说,Nemotron-4-340B-Instruct 的胜:平:负比率为 28.19%:46.57%:25.24%。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

从表 7 中则可以看到,与 GPT-4-1106-preview 相比,标注员认为 Nemotron-4-340B-Instruct 的响应长度更为合适(79.41% 对 74.02%)。ibV28资讯网——每日最新资讯28at.com

值得注意的是,这一优势主要来自较低的长 / 冗长响应率(20.10% 对 25.74%)。ibV28资讯网——每日最新资讯28at.com

ibV28资讯网——每日最新资讯28at.com

作者

ibV28资讯网——每日最新资讯28at.com

参考资料:ibV28资讯网——每日最新资讯28at.com

https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/ibV28资讯网——每日最新资讯28at.com

https://venturebeat.com/ai/nvidias-nemotron-4-340b-model-redefines-synthetic-data-generation-rivals-gpt-4/ibV28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)ibV28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4645-0.html英伟达开源 3400 亿巨兽:98% 合成数据训出最强开源通用模型,性能对标 GPT-4o

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 五粮液浓香酒:劳动节送礼的精致艺术

下一篇: 苹果文生图应用:仅生成卡通图片、元数据标注 AI 生成

标签:
  • 热门焦点
  • 元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    元宇宙里掀起回忆杀?这波虚拟怀旧营销主打一个极限反差

    来源:首席品牌官从被称为“元宇宙元年”的2021年开始,几乎所有品牌都在迫不及待地“入驻”元宇宙。而一提及品牌们的元宇宙玩法,相信多数人脑海里首先浮现
  • 从虚拟餐厅到虚拟时装秀,行业巨头掀起元宇宙商标注册潮

    从虚拟餐厅到虚拟时装秀,行业巨头掀起元宇宙商标注册潮

    自从 Facebook 更名为 Meta 后,关于元宇宙的讨论愈发激烈,这一词汇也越来越多的出现在我们的视野里。这是一个非常有趣的话题。伴随着争论,有些人认为是马克·扎
  • 元宇宙是推动NFT发展的初始家园

    元宇宙是推动NFT发展的初始家园

    现在大家都知道了什么是NFT,但好像离自己的生活还有一定距离。随着我们与NFT 接触增加,该如何将这些数字资产带入我们的日常生活?NFT还是主流吗?如果我们将“主流
  • 影响元宇宙土地价格的五个因素

    影响元宇宙土地价格的五个因素

    参考来源 | cryptonews编译 | Ciel@iNFTnews.com元宇宙中的房地产价格主要取决于使用它的人数,以及为所有者创造收益的能力。专注于数字资产的投资公司LedgerPr
  • 数字经济、数据要素与数字治理

    数字经济、数据要素与数字治理

    深入理解数字经济与数据要素,有利于更准确理解和把握数字治理的基本规律,构建面向未来的健康的数字治理体系,也才能更好地理解元宇宙的治理框架。 一、数字经济
  • Interface正大光明的“跑路”,社区成员赞格局大

    Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
  • 从概念到落地 Web3.0初具雏形

    从概念到落地 Web3.0初具雏形

    加密资产热潮催生出的链上应用中,除了DeFi、NFT、链游GameFi等场景外,还有一个热词叫「Web3.0」。Web3.0的概念最早出现在2014年,由以太坊联合创始人及波卡创建者
  • 浅聊DAO图景和未来

    浅聊DAO图景和未来

    DAO是什么?DAO (Decentralized Autonomous Organizations),去中心化自治组织,是基于区块链技术,由社区通过透明的决策过程运行和管理的组织形态。DAO使得社区成为
Top
Baidu
map