当前位置:首页 > 元宇宙 > AI

“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

来源: 责编: 时间:2024-06-06 17:36:32 117观看
导读 6 月 3 日消息,昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型,

6 月 3 日消息,昆仑万维今日宣布开源 2 千亿稀疏大模型 Skywork-MoE,基于之前昆仑万维开源的 Skywork-13B 模型中间 checkpoint 扩展而来,号称是首个完整将 MoE Upcycling 技术应用并落地的开源千亿 MoE 大模型,也是首个支持用单台 RTX4090 服务器(8 张 RTX 4090 显卡)推理的开源千亿 MoE 大模型。QtU28资讯网——每日最新资讯28at.com

据介绍,本次开源的 Skywork-MoE 模型隶属于天工 3.0 的研发模型系列,是其中的中档大小模型(Skywork-MoE-Medium),模型的总参数量为 146B,激活参数量 22B,共有 16 个 Expert,每个 Expert 大小为 13B,每次激活其中的 2 个 Expert。QtU28资讯网——每日最新资讯28at.com

天工 3.0 还训练了 75B (Skywork-MoE-Small) 和 400B (Skywork-MoE-Large)两档 MoE 模型,并不在此次开源之列。QtU28资讯网——每日最新资讯28at.com

根据官方测试,在相同的激活参数量 20B(推理计算量)下,Skywork-MoE 能力接近 70B 的 Dense 模型,使得模型的推理成本有近 3 倍的下降。同时 Skywork-MoE 的总参数大小比 DeepSeekV2 的总参数大小要小 1/3,用更小的参数规模做到了相近的能力。QtU28资讯网——每日最新资讯28at.com

QtU28资讯网——每日最新资讯28at.com

Skywork-MoE 的模型权重、技术报告完全开源,免费商用,无需申请,附链接如下:QtU28资讯网——每日最新资讯28at.com

模型权重下载:QtU28资讯网——每日最新资讯28at.com

https://huggingface.co/Skywork/Skywork-MoE-baseQtU28资讯网——每日最新资讯28at.com

https://huggingface.co/Skywork/Skywork-MoE-Base-FP8QtU28资讯网——每日最新资讯28at.com

模型开源仓库:https://github.com/SkyworkAI/Skywork-MoEQtU28资讯网——每日最新资讯28at.com

模型技术报告:https://github.com/SkyworkAI/Skywork-MoE/blob/main/skywork-moe-tech-report.pdfQtU28资讯网——每日最新资讯28at.com

模型推理代码:(支持 8 x 4090 服务器上 8 bit 量化加载推理)https://github.com/SkyworkAI/vllmQtU28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4513-0.html“全球首创”单台 RTX 4090 服务器推理,昆仑万维开源 2 千亿稀疏大模型天工 MoE

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队:研究不微调只靠提示词能走多远

下一篇: 振兴乡村发展 助力青少年教育 中国三星连续十一年蝉联企业社会责任榜外企第一

标签:
  • 热门焦点
Top
Baidu
map