当前位置：首页 > 元宇宙 > AI

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

来源：责编：时间：2024-06-25 17:11:53 113观看

导读 6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分

6 月 22 日消息，斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。

据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试内容包括基础数学、美国历史、计算机科学、法律等领域的 57 个任务。要在这个测试中获得高分，模型必须具备广泛的世界知识和解决问题的能力。附排名如下：

▲ 图源斯坦福大学基础模型研究中心官网

1、Claude 3 Opus（20240229）： Anthropic（美国，亚马逊投资）

2、GPT-4o（2024-05-13）：OpenAI（美国）

3、Gemini 1.5 Pro：谷歌（美国）

4、GPT-4（0613）：OpenAI（美国）

5、Qwen2 Instruct（72B）：阿里巴巴（中国）

6、GPT-4 Turbo（2024-04-09）：OpenAI（美国）

7、Gemini 1.5 Pro（0409 preview）：谷歌（美国）

8、GPT-4 Turbo（1106 preview）：OpenAI（美国）

9、Llama 3（70B）：Meta（美国）

10、Yi Large（Preview）：零一万物（中国）

Qwen2 是由阿里巴巴开发的一款开源大语言模型，发布于今年 6 月 6 日。Qwen2 系列包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B 在内的五个不同规模的预训练及指令微调模型；支持除英语和中文外的额外 27 种语言的数据训练；Qwen2-7B-Instruct 和 Qwen2-72B-Instruct 支持长 128K 个 token 的上下文。

Yi Large 是由零一万物公司开发的一款闭源大模型，Yi 模型系列基于 6B 和 34B 预训练语言模型，然后扩展到聊天模型、200K 长上下文模型、深度升级模型和视觉语言模型。官方宣称“其在关键基准测试分数上优于 GPT-4 和 Claude 3 Opus 等领先模型”。

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-4773-0.html斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： GPT-4o 差点没及格！首个多任务长视频评测基准，它有亿点难

下一篇：消息称苹果与 Meta 讨论合作，将生成式 AI 引入 Apple Intelligence

标签：

热门焦点

《蜘蛛侠》火了，超级英雄就该这么演

燃次元（ID:chaintruth）原创作者 | 陶淘编辑 | 曹拿下豆瓣8.8分、IMDB 9.1的高分，6月2日在全球同步上映的《蜘蛛侠：纵横宇宙》（以下简称《蜘蛛侠》），上映不足一周，便在国内“
这场虚拟人争夺战，互联网巨头下场先赢一半？

撰文/ 孟会缘近两年间，要论引得无数互联网巨头竞折腰的一大热门产业，莫过于元宇宙领域中的数字人了。作为继数字藏品之后，开发元宇宙的又一重点落地项目，互联网
元宇宙带来沉浸式智能登录？你学会了吗？

备受资本市场宠爱的元宇宙概念，正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态，与沉浸式体验紧密相关。多重路径，打造无感知沉浸式智能登录《设计
比特币的价格越高，使用价值越大

隔夜比特币还是在精准地横盘在42k上方。空头昨日试图发起一波小的攻势，但是晚上就被多头掰了回来。以太坊的链上gas price降到了60 gwei以下，彰显着市场活跃度的
高通成立欧洲XR实验室；ICICB计划进军元宇宙......

扩展现实（XR）通过计算机将真实与虚拟相结合，打造了一个可人机交互的虚拟环境，将AR、VR、MR多种技术相融合，为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
新款英特尔芯片将使NFT铸造变得更加方便

科技巨头和微处理器制造商英特尔（Intel）正在发布一款适用于 NFT 铸造和挖矿的新芯片。新产品专注于效率、易操作性和可持续性，该公司的战略是从加密兴起与 NFT爆
NFT盗窃案：为什么NFT市场被盗窃和黑客所困扰？

Block-806NFT的增长值得关注。许多人愿意为数字艺术支付数百万美元，世界正在走向数字化。报告显示，NFT市场和NFT收藏从2020年的1.06亿美元增加到了2021年的442亿
Meta 呼吁行业合作建立元宇宙网络基础设施

Facebook 的母公司 Meta呼吁，建立必要的全球合作的基础设施，以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一，这在很大程度上是由 Facebo
TX加入的NFT数字收藏品，元宇宙的破圈之路?

3月7日，澳大利亚 NFT 初创公司 Immutable 在新加坡淡马锡牵头的R资中以估值 25 亿美元完成2亿美元R资，腾讯参投。想必国人最熟知的应该就是TX，作为国内四大互联网