当前位置:首页 > 科技  > 知识百科

性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

来源: 责编: 时间:2023-08-07 16:30:03 123观看
导读 背景近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆

背景AI228资讯网——每日最新资讯28at.com

近些年,NLP 应用方面有所突破,Bert、GPT、GPT-3 等超大模型横扫各种 NLP 测试后,人们发现参数量越大的模型,在算法方面表现越好,于是纷纷开始迅速向大模型方向发展,模型体积爆炸式增长。而大模型训练给现有的训练系统带来的主要挑战为显存压力,计算压力和通信压力。AI228资讯网——每日最新资讯28at.com

AI228资讯网——每日最新资讯28at.com

The size of language model is growing at an exponential rate (来源:https://huggingface.co/blog/large-language-models)AI228资讯网——每日最新资讯28at.com

火山引擎大模型训练框架 veGiantModelAI228资讯网——每日最新资讯28at.com

针对这个需求,字节跳动 AML 团队内部开发了火山引擎大模型训练框架 veGiantModel。基于 PyTorch 框架,veGiantModel 是以 Megatron 和 DeepSpeed 为基础的高性能大模型训练框架。其特点包括:AI228资讯网——每日最新资讯28at.com

同时支持数据并行、算子切分、流水线并行 3 种分布式并行策略,同时支持自动化和定制化的并行策略;基于 ByteCCL 高性能异步通讯库,训练任务吞吐相比其他开源框架有 1.2x-3.5x 的提升;提供了更友好、灵活的流水线支持,降低了模型开发迭代所需要的人力;可在 GPU上高效地支持数十亿至上千亿参数量的大模型;对带宽要求低,在私有化部署无 RDMA 强依赖。AI228资讯网——每日最新资讯28at.com

其中,ByteCCL 为字节跳动自研的 BytePS 的升级版,针对 A100/V100 等各种机型拓扑做了分层规约优化,并支持了 allgather、alltoall 等更全面的通讯原语。AI228资讯网——每日最新资讯28at.com

veGiantModel 性能表现硬件配置AI228资讯网——每日最新资讯28at.com

为了展示 VeGiantModel 的性能,veGiantModel 团队使用了自建机房的物理机,分别在 A100 和 V100 机型上做了测试,实验配置分别如下:AI228资讯网——每日最新资讯28at.com

V100 测试:每个机器 8 张 Tesla V100 32G 型号 GPU,网络带宽 100GA100 测试:每个机器 8 张 Ampere A100 40G 型号 GPU,网络带宽 800G模型和对照组选择AI228资讯网——每日最新资讯28at.com

veGiantModel 选择了 GPT-13B 模型进行评估,seq length 是 256, global batch size 是 1536。GPT 为目前市面上最为流行的 transformer based 语言模型。性能对照组选择了开源社区最流行的 Megatron 和 DeepSpeed。AI228资讯网——每日最新资讯28at.com

测试结果V100/TCP :100Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla V100 32G GPUV100/RDMA:100Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla V100 32G GPUA100/TCP:800Gb/s TCP 网络带宽,4 机,每机 8 张 Tesla A100 40G GPUA100/RDMA:800Gb/s RDMA 网络带宽,4 机,每机 8 张 Tesla A100 40G GPU模型:GPT-13BMegatron:v2.4,tensor-model-parallel-size 设置为 4, pipeline-model-parallel-size 设置为 4DeepSpeed:v0.4.2,使用 DeepSpeedExamples 开源社区中默认的 zero3 的配置运行环境统计值:Throughtput (samples/s)AI228资讯网——每日最新资讯28at.com

AI228资讯网——每日最新资讯28at.com

AI228资讯网——每日最新资讯28at.com

从上述数据可以看出:AI228资讯网——每日最新资讯28at.com

veGiantModel 性能更优:无论是在高带宽还是低带宽的场下,veGiantModel 在 V100 和 A100 上均胜出 Megatron 和 DeepSpeed,最高可达 6.9 倍提升。veGiantModel 对网络带宽要求低:veGiantModel 在带宽变化对吞吐的影响相对最小 (<10%),而 DeepSpeed(ZeRO) 是对带宽要求最高的,最高可达将近 5 倍的差距。原因解析AI228资讯网——每日最新资讯28at.com

veGiantModel 为什么比 Megatron 和 DeepSpeed 更快?原因如下:AI228资讯网——每日最新资讯28at.com

ByteCCL (BytePS) 高性能异步通讯库。支持定制化的并行策略,可以将性能优化推到极致。在支持数据并行、算子切分、流水线并行 3 种分布式并行策略时,veGiantModel 会综合考虑到跨机的带宽,自动调整 toplogy 的 placement。传送门AI228资讯网——每日最新资讯28at.com

veGiantModel 现已在 GitHub 上开源,地址如下:AI228资讯网——每日最新资讯28at.com

https://github.com/volcengine/veGiantModelAI228资讯网——每日最新资讯28at.com

GitHub 上详细介绍了如何使用 veGiantModel 以及如何使用 veGiantModel 快速跑起一个 GPT 的预训练。火山引擎机器学习平台原生支持了 veGiantModel,目前平台正在公测中,欢迎大家试用:https://www.volcengine.com/product/ml-platformAI228资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-119-2229-0.html性能最高提升 6.9 倍,字节跳动开源大模型训练框架 veGiantModel

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软智能云在华新增数据中心区域正式启用 看好中国市场机会

下一篇: 云计算不相信小厂

标签:
  • 热门焦点
  • 影音体验是真的强 简单聊聊iQOO Pad

    影音体验是真的强 简单聊聊iQOO Pad

    大公司的好处就是产品线丰富,非常细分化的东西也能给你做出来,例如早先我们看到了新的vivo Pad2,之后我们又在iQOO Neo8 Pro的发布会上看到了iQOO的首款平板产品iQOO Pad。虽
  • 7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月安卓手机性能榜:红魔8S Pro再夺榜首

    7月份的手机市场风平浪静,除了红魔和努比亚带来了两款搭载骁龙8Gen2领先版处理器的新机之外,别的也想不到有什么新品了,这也正常,通常6月7月都是手机厂商修整的时间,进入8月份之
  • CSS单标签实现转转logo

    CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • 学习JavaScript的10个理由...

    学习JavaScript的10个理由...

    作者 | Simplilearn编译 | 王瑞平当你决心学习一门语言的时候,很难选择到底应该学习哪一门,常用的语言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
  • 如何通过Python线程池实现异步编程?

    如何通过Python线程池实现异步编程?

    线程池的概念和基本原理线程池是一种并发处理机制,它可以在程序启动时创建一组线程,并将它们置于等待任务的状态。当任务到达时,线程池中的某个线程会被唤醒并执行任务,执行完任
  • 得物宠物生意「狂飙」,发力“它经济”

    得物宠物生意「狂飙」,发力“它经济”

    作者|花花小萌主近日,得物宣布正式上线宠物鉴别,通过得物App内的&ldquo;在线鉴别&rdquo;,可找到鉴别宠物的选项。通过上传自家宠物的部位细节,就能收获拥有专业资质认证的得物鉴
  • 7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    7月4日见!iQOO 11S官宣:“鸡血版”骁龙8 Gen2+200W快充加持

    上半年已接近尾声,截至目前各大品牌旗下的顶级旗舰都已悉数亮相,而下半年即将推出的顶级旗舰已经成为了数码圈爆料的主流,其中就包括全新的iQOO 11S系
  • 2299元起!iQOO Pad明晚首销:性能最强天玑平板

    2299元起!iQOO Pad明晚首销:性能最强天玑平板

    5月23日,iQOO如期举行了新品发布会,除了首发安卓最强旗舰处理器的iQOO Neo8系列新机外,还在发布会上推出了旗下首款平板电脑——iQOO Pad,其最大的卖点
  • iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    iQOO Neo8 Pro真机谍照曝光:天玑9200+和V1+旗舰双芯加持

    去年10月,iQOO推出了iQOO Neo7系列机型,不仅搭载了天玑9000+,而且是同价位唯一一款天玑9000+直屏旗舰,一经上市便受到了用户的广泛关注。在时隔半年后,
Top
Baidu
map