当前位置：首页 > 游戏 > 单机

首个Al高考全卷评测结果发布数学全部不及格

来源：责编：时间：2024-06-20 15:16:36 59观看

导读高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日，OpenCompass发布了首个大模型高考全卷评测结果。在满分420分的三科测试中，阿里

高考结束后，上海人工智能实验室旗下司南评测体系OpenCompass选取了7个大模型进行高考“语数外”全卷能力测试。6月19日，OpenCompass发布了首个大模型高考全卷评测结果。

在满分420分的三科测试中，阿里通义千问2-72B以303分的成绩拔得头筹，紧随其后的是OpenAI的GPT-4o，获得296分，而上海人工智能实验室的书生·浦语2.0位列第三。

游民星空

这三大模型的得分率均超过了70%，展现了不俗的实力。相比之下，来自法国大模型初创公司的Mistral则排名末尾。

参与此次评测的模型来源广泛，包括阿里巴巴、零一万物、智谱AI、上海人工智能实验室、法国Mistral的开源模型，以及OpenAI的闭源模型GPT-4o。

游民星空

为确保公平，实验室特别指出，由于无法确定闭源模型的更新时间，评测中仅将GPT-4o作为参考，并未纳入商用闭源模型。同时，所有参与评测的模型均在高考前(2024年4月-6月)开源，有效避免了“刷题风险”。

从评测结果来看，大模型在语文和英语方面的表现普遍较好，但在数学方面则普遍不及格。最高分仅为75分，由书生·浦语2.0获得，紧随其后的是GPT-4o的73分。语文方面，通义千问表现出色，而英语则由GPT-4o领跑。

数学成绩的不理想凸显出大模型在复杂推理能力方面的不足。这一能力是金融、工业等要求可靠场景落地所需的关键能力，也是大模型未来发展的重要方向。

游民星空

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-56-20661-0.html首个Al高考全卷评测结果发布数学全部不及格

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：《塞尔达传说》新作截图、背景介绍：林克下落不明！

下一篇：《皮皮鲁》动画电影立项！童话大王郑渊洁之子担任编剧

标签：

热门焦点

饥荒制作刷肉机快速刷肉的详细操作方法

大肉是饥荒游戏里面的重要食物，主要是猪人身上掉落的，而且在游戏里面我们可以通过制作刷肉机来快速获得大量大肉。今天小编给大家分享一下饥荒制作刷肉机快速刷肉的详细操作方
饥荒石头怎么大量获得?饥荒快速获得大量石头的技巧分享

饥荒石头怎么大量获得？石头是饥荒游戏里面的常用物品，很多物品的制作都需要用到石头，因此玩家经常会面临石头不足的问题。今天给大家分享一下饥荒快速获得大量石头的技巧，有兴趣
csgo饰品租赁平台有哪些分享十款受欢迎cgso低价饰品租赁平台

，很多喜欢csgo的伙伴都在寻找可靠的国内开箱网站。毕竟，如果能从箱子里打开昂贵的首饰，那就太爽了。今天，小编就给大家推
史泰龙拒绝优雅地老去：你没什么优雅之处

【资料图】史泰龙近期接受采访，感慨了一番年龄带给他的那些东西。“我觉得自己很不成熟。我一直很反感‘到什么年龄就做什么事’，或是‘优雅地老去’，怎么优雅地
2022年LCC英雄联盟解说主持杯宣传片：吾胃竞巅峰吃至无双！

今日（11月11日），英雄联盟官博放出了2022LCC英雄联盟解说主持杯宣传片，一起来看一下。(相关资料图)宣传视频地址>>>官方原文：吾胃竞巅峰吃至无双！他们说，要跟着那阵
每日关注!《帝国时代》登主机宣传片：我们看到了玩家的心愿

(资料图)Xbox发布了《帝国时代》登陆主机平台的宣传片，表达了对玩家愿望的重视。一起来看看。宣传视频：《帝国时代2 决定版》将于2023年1月31日登陆主机平台，《
《异度之刃3》全球销量172万份其中日本本土48万份1环球热文

(资料图片)《异度之刃3》的角色设计师齐藤将嗣在推特发文宣布，《异度之刃3》全球销量已经达到172万份。其中日本本土销量48万份，海外销量124万份。《异度之刃3
《战神：诸神黄昏》要来了！索尼提醒你为PS4/5留够储存空间

(资料图片仅供参考)距离《战神：诸神黄昏》正式发售还有两天，PS日本官方发文提醒玩家为主机提前预留好空间：为PS5预留100GB可用空间，为PS4预留109GB可用空间。PS5
男子12万卖游戏账户后找回获刑3年半已构成犯罪

网络游戏打怪升级，厉害的高端玩家可以通过将自己玩的很好，很厉害的号高价卖出，赚取到一笔不小的报酬。这在游戏圈中早已是众所周知，见怪不怪的事情了。为了避免玩