当前位置:首页 > 元宇宙 > AI

OpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

来源: 责编: 时间:2024-09-27 16:34:57 16观看
导读 9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。PlanBench 基准简介PlanBench 开发于 2

9 月 25 日消息,来自亚利桑那州立大学的科研团队利用 PlanBench 基准,测试了 OpenAI o1 模型的规划能力。研究结果表明 o1 模型取得了长足的进步,但仍然存在很大的局限性。06i28资讯网——每日最新资讯28at.com

PlanBench 基准简介

PlanBench 开发于 2022 年,用于评估人工智能系统的规划能力,包括 600 个来自 Blocksworld 领域的任务,其中积木必须按照特定顺序堆叠。06i28资讯网——每日最新资讯28at.com

OpenAI o1 模型成绩

在 Blocksworld 任务中,OpenAI 的 o1 模型准确率达到 97.8%,大大超过了之前的最佳语言模型 LLaMA 3.1 405B(准确率为 62.6%)。06i28资讯网——每日最新资讯28at.com

在更具挑战性的“Mystery Blocksworld”加密版本中,传统模型几乎全部失败,而 OpenAI 的 o1 模型准确率达到 52.8%。附上报告图片如下:06i28资讯网——每日最新资讯28at.com

06i28资讯网——每日最新资讯28at.com

研究人员还测试了一种新的随机变体,以排除 o1 的性能可能源于其训练集中的基准数据。在这次测试中,O1 的准确率降至 37.3%,但仍远远超过了得分接近零的其它模型。06i28资讯网——每日最新资讯28at.com

规划步骤越多,性能下降越明显

随着任务越来越复杂,o1 的表现也急剧下降。在需要 20 到 40 个规划步骤的问题上,o1 在较简单测试中的准确率从 97.8% 下降到只有 23.63%。06i28资讯网——每日最新资讯28at.com

该模型在识别无法解决的任务方面也很吃力,只有 27% 的时间能够正确识别。在 54% 的情况下,它错误地生成了完整但不可能完成的计划。06i28资讯网——每日最新资讯28at.com

“Quantum improvement”,但并非突破性

虽然 o1 在基准性能上实现了“量子改进”(Quantum improvement),但它并不能保证解决方案的正确性。如快速向下算法等经典的规划算法,可以在更短的计算时间内实现完美的准确性。06i28资讯网——每日最新资讯28at.com

研究还强调了 o1 的高资源消耗,运行这些测试需要花费近 1900 美元,而经典算法在标准计算机上运行几乎不需要任何成本。06i28资讯网——每日最新资讯28at.com

研究人员强调,对人工智能系统进行公平比较必须考虑准确性、效率、成本和可靠性。他们的研究结果表明,虽然像 o1 这样的人工智能模型在复杂推理任务方面取得了进步,但这些能力还不够强大。06i28资讯网——每日最新资讯28at.com

06i28资讯网——每日最新资讯28at.com

由媒体TheDecoder 使用 Midjourney 生成

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-7799-0.htmlOpenAI o1 AI 模型 PlanBench 规划能力实测:准确率 97.8%,远超 LLaMA 3.1 405B 创造的 62.6% 纪录

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 微软发布新工具,检测和纠正 AI 幻觉内容

下一篇: 世嘉/ATLUS重磅来袭!东京电玩展直播,游戏迷们别错过!

标签:
  • 热门焦点
  • FMIFAwards奖项即将揭晓!

    FMIFAwards奖项即将揭晓!

    来源:X增强现实FMIF Awards未来元宇宙创新奖是由未来元宇宙创新论坛、ARinChina以及多家投资机构、媒体、研究院联合发起的一项评选活动。旨在推动新技术的融合与集成低成本
  • 关于ChatGPT的10点思考

    关于ChatGPT的10点思考

    作者:晏涛三寿近日ChatGPT又有大动作。5月19日,OpenAI在官网宣布正式发布App应用,并登录苹果应用商店。与网页版的聊天机器人相比,iOS应用程序的发布有望让更多人接触到ChatGPT
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 茅台的元宇宙App火了,也被骂惨了

    茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    AI特效、虚拟人、数字盲盒,来看看元宇宙如何融合冬奥会!

    今天是冬奥会比赛的第12天,截至目前所累计的成绩,中国代表团已经取得了冬奥历史最佳战绩。全世界的人都在关注着这场盛事,为奥运健儿呐喊助威。谷爱凌、徐梦桃、
  • 2022年的Web3:定义概念并开创新范式

    2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • 吸金31亿美元,谁在催火2021年的链游?

    吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • 元宇宙画廊体验报告:有点头疼。

    元宇宙画廊体验报告:有点头疼。

    2 月 10 日,Hrishi Rajasekar 在旧金山铸币厂的沉浸式 NFT 展览 Verse 观看增强现实艺术品。“我们现在在虚拟世界中吗?时间好像变长了” 我问身后排队的人。我
  • 想进入web3.0?来看看哪些工作适合你

    想进入web3.0?来看看哪些工作适合你

    随着对加密货币需求的增加,加密领域的工作的数量也在增加。以下是一些非技术性加密货币工作简介。加密货币在主流市场获得的可信度提升。导致区块链领域的求职
Top
Baidu
map