当前位置:首页 > 元宇宙 > AI

通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

来源: 责编: 时间:2024-07-19 07:54:23 52观看
导读7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期

7月18日消息,近日,上海人工智能实验室揭晓了一场特殊的“高考”成绩,这场考试与众不同,因为它的参考者并非真实的学生,而是7个顶尖的AI大模型。这一评测的初衷在于探索当前大模型的真实能力水平,并寻找其可能存在的问题,以期推动技术的进步。ko628资讯网——每日最新资讯28at.com

ko628资讯网——每日最新资讯28at.com

ko628资讯网——每日最新资讯28at.com

据评测结果,书生・浦语 2.0 系列文曲星大模型(浦语文曲星)、阿里通义千问大模型 Qwen2-72B 和广为人知的 GPT-4o在众多模型中脱颖而出,分别在文科和理科的评测中位列前三。这三款大模型的文、理科成绩均超越了“一本”和“二本”的分数线,这一参考线是基于今年高考人数最多的河南省的分数线设定的。ko628资讯网——每日最新资讯28at.com

此次参与评测的大模型除了上述三款外,还包括了Yi-1.5-34B、Qwen2-57B、GLM-4-9B以及来自法国AI初创公司Mistral的Mixtral8×22B。整个评测过程严谨而全面,不仅进行了全卷的评分,还特意邀请了有高考阅卷经验的老师进行打分,以确保评分的公正性和准确性。ko628资讯网——每日最新资讯28at.com

ko628资讯网——每日最新资讯28at.com

ko628资讯网——每日最新资讯28at.com

在这场特殊的“高考”中,Qwen2-72B以546分的高分夺得了文科状元的桂冠,而浦语文曲星则以468.5分领跑理科。与此同时,GPT-4o在文理科均展现出不俗的实力。不过,国外的大模型Mixtral8x22B在此次评测中表现相对较弱。ko628资讯网——每日最新资讯28at.com

阅卷老师们在对答案进行仔细分析后指出,虽然大模型在基础知识的掌握上表现出色,但与真实考生相比,在逻辑推理和知识灵活应用上还存在明显差距。特别是在解答主观题时,大模型往往难以完整理解题目要求,导致答案与题目要求不符。在数学题的解答过程中,大模型的表现也显得机械且逻辑性不强。ko628资讯网——每日最新资讯28at.com

根据上海人工智能实验室上个月公布的 AI 高考全卷结果,Qwen2-72B、GPT-4o 及书生・浦语 2.0文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲,得分率均超过70%。大部分模型“考生”语文、英语科目表现良好,但数学方面仍有很大提升空间。ko628资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-6035-0.html通义千问、GPT-4o 等七款大模型“高考”成绩揭晓:前三名文科破一本线,理科跃二本线

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 3万多三星员工无限期全面罢工,SSD等存储设备价格面临上调

下一篇: 专为iPad而生,苹果高管阐述iPadOS 18计算器应用创新思路

标签:
  • 热门焦点
  • 错过了BRC20还有eths,eth铭文协议

    错过了BRC20还有eths,eth铭文协议

    来源:三头鸟NFT大家好,我是鸟哥,了解鸟哥的人都知道鸟哥擅撸空投,说实话撸毛虽然回报大但周期还是有点长的,所以除了撸毛我们自己也在研究早期项目,打新,比如BRC20协议ordi当时就有
  • 完美世界被元宇宙“拒之门外”

    完美世界被元宇宙“拒之门外”

    春节期间,游戏是消磨时间最好的方式,完美世界的《幻塔》作为选择的首要目标,倒不是因为它的吸引力有多大,纯粹是广大网友的吐槽。继《原神》之后,进击元宇宙的游戏
  • 好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    好莱坞:一股新的电影制作加密浪潮将颠覆这个行业

    在Moviecoin.com平台上,有一部电影设定了一个前所未有的目标,即通过预售NFT获得100%的全额融资,这部电影就是马克·奥康纳(Mark O’connor)执导的《Oui Cannes》,
  • 2030年的元宇宙产业将会如何发展?

    2030年的元宇宙产业将会如何发展?

    对互联网巨头传统业务的反垄断政策倒逼互联网企业颠覆创新,寻找新的增长点,移动互联网流量空间见顶之际,元宇宙时代红利已然开启。序章:元宇宙应用场景大猜想元宇
  • NFT:新骗局的狩猎场

    NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • 想进入web3.0?来看看哪些工作适合你

    想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
  • 韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

    韩国流行音乐巨头SM与Binance达成NFT合作伙伴关系

    韩国流行音乐巨头 SM Entertainment 与加密货币交易所 Binance(币安)达成“Play2Create”NFT 合作伙伴关系。SM 娱乐一直在投资打造元宇宙该公司于 2020 年 10
  • Meta 呼吁行业合作建立元宇宙网络基础设施

    Meta 呼吁行业合作建立元宇宙网络基础设施

    Facebook 的母公司 Meta呼吁,建立必要的全球合作的基础设施,以支持其蓬勃发展的元宇宙野心。“元宇宙”成为 2021 年的主要流行语之一,这在很大程度上是由 Facebo
  • 3月份值得关注的5个NFT项目

    3月份值得关注的5个NFT项目

    2021年,我们见证了一个新的创造者经济的诞生。它是在区块链上诞生的。自从NFT成为流行文化的中心舞台以来,有些艺术家们已经成为了NFT的超级明星,在几个月的时间
Top
Baidu
map