当前位置:首页 > 科技  > 数码

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

来源: 责编: 时间:2024-09-20 16:06:35 45观看
导读 快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。Llama3.1-405B作为4000亿参数规

快科技9月20日消息,中国电信宣布,天翼云自研的国内首个单集群万卡国产化全功能预训练云服务平台,已经正式发布上线,基于华为昇腾芯片,并完成了万卡规模Llama3.1-405B大模型训练。q9128资讯网——每日最新资讯28at.com

Llama3.1-405B作为4000亿参数规模的大模型,在息壤训推服务平台的支持下,经过多轮优化,MFU(算力利用率)达到国内领先水平。q9128资讯网——每日最新资讯28at.com

另外,700亿参数大模型Llama2-70B在万卡规模下完成训练,MFU也处于业界领先水平。q9128资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型q9128资讯网——每日最新资讯28at.com

据悉,天翼云的这套平台具备万卡纳管和并行训练能力,基于HPFS PB级并行文件系统、CTCCL RDMA高速卡间互联技术、Gang策略与拓扑感知的智算容器调度,以及慧聚自研分布式训练框架TeleFormers和平台,实现万卡资源纳管、万卡规模并行训练。q9128资讯网——每日最新资讯28at.com

其中,天翼云自研了AI框架Teleformers,对算子、通信、数据处理进行优化,还有并行策略的自适应调整,显著提升了大模型训练的训练效率。q9128资讯网——每日最新资讯28at.com

在目前业内大参数规模开源单体稠密模型Llama3.1-405B大模型训练测试中,性能表现达到国际同等水平。q9128资讯网——每日最新资讯28at.com

算子优化方面,针对昇腾芯片的特性,在网络结构层面对诸多高频算子进行了定制化改造,构建了高性能算子集。q9128资讯网——每日最新资讯28at.com

比如matmul算子,利用昇腾芯片的计算亲和性,将算子输入padding到特定的维度,大幅提升执行效率,从而明显缩短了训练时间。q9128资讯网——每日最新资讯28at.com

数据处理和流水线方面,通过设置合理的数据分片策略和HPFS条带化优化,结合数据预取与数据下沉技术,大幅提升数据流的处理效率和稳定性;对预处理后的数据集进行了二次分片并提供就近缓存能力,减少GPU空闲时间。q9128资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型q9128资讯网——每日最新资讯28at.com

自适应并行策略方面,基于对3D并行中各类计算单元的分析,天翼云设计了多种自适应的3D并行策略,依据模型规模和硬件资源的不同可以自动选择合适的并行策略,充分利用计算资源和显存资源,缩短模型训练中每轮的迭代时间。q9128资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型q9128资讯网——每日最新资讯28at.com

天翼云国产化万卡智算中心还有多项技术突破——q9128资讯网——每日最新资讯28at.com

天翼云息壤训练服务平台基于软硬件协同设计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅调度和模型编译缓存等系统,将万卡规模故障发现和解决问题缩短到业内前沿的分钟级,大幅提升有效训练时间。q9128资讯网——每日最新资讯28at.com

自动断点续训系统:q9128资讯网——每日最新资讯28at.com

建设丰富的故障库,基于此构建了多维故障感知系统,能够快速主动感知相关故障事件和潜在的故障风险;q9128资讯网——每日最新资讯28at.com

通过精准的故障隔离和调度手段,快速隔离处理故障节点并重新调度新节点接手任务继续训练,实现无人干预式断点续训,有效减少GPU闲置时间。q9128资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型q9128资讯网——每日最新资讯28at.com

高速多级CheckPoint系统:q9128资讯网——每日最新资讯28at.com

天翼云设计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,实现高速写入内存,并终异步写入远端系统;q9128资讯网——每日最新资讯28at.com

针对断点恢复场景,提供进程级故障原地快恢和远端快速恢复能力,终实现对CheckPoint的秒级读写能力,大幅降低断点恢复时间、提升训练效率。q9128资讯网——每日最新资讯28at.com

中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型q9128资讯网——每日最新资讯28at.com

全链路检测工具链:q9128资讯网——每日最新资讯28at.com

天翼云开发了全链路故障监控工具链,能够基于主动感知实现全链路的故障监控和定位。q9128资讯网——每日最新资讯28at.com

该工具链可以主动发现设备故障,并降低训练中断的频次,确保训练过程的连续性和稳定性。q9128资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-24-114904-0.html中国电信天翼云完成首个国产GPU万卡训练!4000亿参数大模型领先

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: AMD锐龙AI 300集显支持AFMF2插帧、可变显存:帧率暴涨多78%

下一篇: 玩家必备!雷克沙×魔域联名定制礼盒上市 首发549元

标签:
  • 热门焦点
  • Redmi Pad评测:红米充满野心的一次尝试

    Redmi Pad评测:红米充满野心的一次尝试

    从Note系列到K系列,从蓝牙耳机到笔记本电脑,红米不知不觉之间也已经形成了自己颇有竞争力的产品体系,在中端和次旗舰市场上甚至要比小米新机的表现来得更好,正所谓“大丈夫生居
  • 2023年Q2用户偏好榜:12+256G版本成新主流

    2023年Q2用户偏好榜:12+256G版本成新主流

    3月份的性能榜、性价比榜和好评榜之后,就要轮到2023年的第二季度偏好榜了,上半年的新机潮已经过去,最明显的肯定就是大内存和存储的机型了,另外部分中端机也取消了屏幕塑料支架
  • 掘力计划第 20 期:Flutter 混合开发的混乱之治

    掘力计划第 20 期:Flutter 混合开发的混乱之治

    在掘力计划系列活动第20场,《Flutter 开发实战详解》作者,掘金优秀作者,Github GSY 系列目负责人恋猫的小郭分享了Flutter 混合开发的混乱之治。Flutter 基于自研的 Skia 引擎
  • Golang 中的 io 包详解:组合接口

    Golang 中的 io 包详解:组合接口

    io.ReadWriter// ReadWriter is the interface that groups the basic Read and Write methods.type ReadWriter interface { Reader Writer}是对Reader和Writer接口的组合,
  • Flowable工作流引擎的科普与实践

    Flowable工作流引擎的科普与实践

    一.引言当我们在日常工作和业务中需要进行各种审批流程时,可能会面临一系列技术和业务上的挑战。手动处理这些审批流程可能会导致开发成本的增加以及业务复杂度的上升。在这
  • 一文搞定Java NIO,以及各种奇葩流

    一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • 破圈是B站头上的紧箍咒

    破圈是B站头上的紧箍咒

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之每年的暑期档都少不了瞄准追剧女孩们的古偶剧集,2021年有优酷的《山河令》,2022年有爱奇艺的《苍兰诀》,今年却轮到小破站抓住了追
  • iQOO Neo8系列今日官宣:首发天玑9200+ 全球安卓最强芯!

    iQOO Neo8系列今日官宣:首发天玑9200+ 全球安卓最强芯!

    在昨日举行的的联发科新一代旗舰芯片天玑9200+的发布会上,iQOO官方也正式宣布,全新的iQOO Neo8系列新品将全球首发搭载这款当前性能最强大的移动平台
  • OPPO K11评测:旗舰级IMX890加持 2000元档最强影像手机

    OPPO K11评测:旗舰级IMX890加持 2000元档最强影像手机

    【Techweb评测】中端机型用户群体巨大,占了中国目前手机市场的大头,一直以来都是各手机品牌的“必争之地”,其中OPPO K系列机型一直以来都以高品质、
Top
Baidu
map