当前位置:首页 > 元宇宙 > AI

斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

来源: 责编: 时间:2024-06-25 17:11:53 113观看
导读 6 月 22 日消息,斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分

6 月 22 日消息,斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。Rms28资讯网——每日最新资讯28at.com

据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分,模型必须具备广泛的世界知识和解决问题的能力。附排名如下:Rms28资讯网——每日最新资讯28at.com

Rms28资讯网——每日最新资讯28at.com

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus(20240229): Anthropic(美国,亚马逊投资)Rms28资讯网——每日最新资讯28at.com

2、GPT-4o(2024-05-13):OpenAI(美国)Rms28资讯网——每日最新资讯28at.com

3、Gemini 1.5 Pro:谷歌(美国)Rms28资讯网——每日最新资讯28at.com

4、GPT-4(0613):OpenAI(美国)Rms28资讯网——每日最新资讯28at.com

5、Qwen2 Instruct(72B):阿里巴巴(中国)Rms28资讯网——每日最新资讯28at.com

6、GPT-4 Turbo(2024-04-09):OpenAI(美国)Rms28资讯网——每日最新资讯28at.com

7、Gemini 1.5 Pro(0409 preview):谷歌(美国)Rms28资讯网——每日最新资讯28at.com

8、GPT-4 Turbo(1106 preview):OpenAI(美国)Rms28资讯网——每日最新资讯28at.com

9、Llama 3(70B):Meta(美国)Rms28资讯网——每日最新资讯28at.com

10、Yi Large(Preview):零一万物(中国)Rms28资讯网——每日最新资讯28at.com

Qwen2 是由阿里巴巴开发的一款开源大语言模型,发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型;支持除英语和中文外的额外 27 种语言的数据训练;Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。Rms28资讯网——每日最新资讯28at.com

Yi Large 是由零一万物公司开发的一款闭源大模型,Yi 模型系列基于 6B 和 34B 预训练语言模型,然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。Rms28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4773-0.html斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: GPT-4o 差点没及格!首个多任务长视频评测基准,它有亿点难

下一篇: 消息称苹果与 Meta 讨论合作,将生成式 AI 引入 Apple Intelligence

标签:
  • 热门焦点
Top
Baidu
map