当前位置:首页 > 科技  > 软件

幻方发布全球最强MOE大模型! DeepSeek-V2

来源: 责编: 时间:2024-05-07 09:08:42 100观看
导读1. 介绍今天,我们介绍了DeepSeek-V2,这是一个强大的专家混合(MoE)语言模型,其特点是训练经济且推理高效。它总共包含236B个参数,每个token激活21B个。与DeepSeek 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练

1. 介绍

今天,我们介绍了DeepSeek-V2,这是一个强大的专家混合(MoE)语言模型,其特点是训练经济且推理高效。它总共包含236B个参数,每个token激活21B个。与DeepSeek 67B相比,DeepSeek-V2实现了更强的性能,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并将最大生成吞吐量提高了5.76倍。xdD28资讯网——每日最新资讯28at.com

图片图片xdD28资讯网——每日最新资讯28at.com

图片图片xdD28资讯网——每日最新资讯28at.com

我们在包含8.1万亿token的多样化和高质量语料库上预训练了DeepSeek-V2。随后,我们通过监督式微调(SFT)和强化学习(RL)的过程来充分释放模型的潜力。评估结果验证了我们方法的有效性,因为DeepSeek-V2在标准基准测试和开放式生成评估上都取得了显著的性能。xdD28资讯网——每日最新资讯28at.com

2. 模型下载

由于HuggingFace的限制,当前开源代码在GPU上运行时的性能比我们内部代码库慢。为了促进我们模型的有效执行,我们提供了一个专门的vllm解决方案,该解决方案优化了我们模型的运行性能。xdD28资讯网——每日最新资讯28at.com

ModelxdD28资讯网——每日最新资讯28at.com

Context LengthxdD28资讯网——每日最新资讯28at.com

DownloadxdD28资讯网——每日最新资讯28at.com

DeepSeek-V2
xdD28资讯网——每日最新资讯28at.com

128k
xdD28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-26-86986-0.html幻方发布全球最强MOE大模型! DeepSeek-V2

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 一起聊聊基于队列实现多人同时导出 Excel

下一篇: C#中try-catch的优雅使用,你学会了吗?

标签:
  • 热门焦点
Top
Baidu