当前位置:首页 > 元宇宙 > AI

GPT-4:突破巨大参数规模的下一步之旅

来源: 责编: 时间:2023-08-15 18:48:15 176观看
导读07月13日消息,外媒Semianalysis最近对OpenAI于今年3月发布的GPT-4大模型进行了深度揭秘。据他们透露,GPT-4在架构和参数方面有着显著的提升,以及采用了混合专家模型(Mixtureof Experts)的构建方式。据悉,GPT-4采用了混合

07月13日消息,外媒Semianalysis最近对OpenAI于今年3月发布的GPT-4大模型进行了深度揭秘。据他们透露,GPT-4在架构和参数方面有着显著的提升,以及采用了混合专家模型(Mixtureof Experts)的构建方式。qIz28资讯网——每日最新资讯28at.com

据悉,GPT-4采用了混合专家模型,这种模型利用数据进行训练,将多个模型分别训练后,将它们的输出整合为一个单独的任务。为了保持合理的成本,OpenAI选择了这种方式进行构建。GPT-4总共有120层,包含了1.8万亿个参数,相比之下,GPT-3只有约1750亿个参数,可见其在规模上的巨大提升。qIz28资讯网——每日最新资讯28at.com

qIz28资讯网——每日最新资讯28at.com

GPT-4使用了16个混合专家模型,每个模型拥有1110亿个参数,并且每次前向传递路由都会经过两个专家模型。此外,它还拥有550亿个共享注意力参数。为了进行训练,OpenAI使用了一个包含13万亿个tokens的数据集,这些tokens并非唯一,而是根据迭代次数计算出更多的tokens。qIz28资讯网——每日最新资讯28at.com

qIz28资讯网——每日最新资讯28at.com

据ITBEAR科技资讯了解,GPT-4在预训练阶段的上下文长度为8k,32k版本则是对8k版本的微调结果。然而,GPT-4的训练成本非常高昂。根据外媒报道,即使使用了8倍H100物理机,也无法以每秒33.33个token的速度提供所需的密集参数模型。据估算,一次GPT-4的训练成本高达6300万美元(约4.51亿元人民币)。qIz28资讯网——每日最新资讯28at.com

为了降低训练成本,OpenAI选择在云端使用A100GPU进行模型训练,最终将训练成本降低至大约2150万美元(约1.54亿元人民币),尽管需要更长的时间来完成训练过程。这一举措在一定程度上减轻了训练成本的压力。qIz28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-999-0.htmlGPT-4:突破巨大参数规模的下一步之旅

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 前沿技术、机器人和集成电路成为人工智能领域热门融资领域

下一篇: 新一代AI笔记应用Notebook LM亮相:优化信息整理与解答需求

标签:
  • 热门焦点
Top
Baidu
map