当前位置:首页 > 科技  > 网络

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解

来源: 责编: 时间:2024-09-14 09:12:00 24观看
导读 OpenAI传说中的“草莓”终于正式上线!不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。OpenAI这次“无预警发布”震撼了科技圈,o1更是被CEO奥特曼称它为了

OpenAI传说中的“草莓”终于正式上线!SVq28资讯网——每日最新资讯28at.com

不仅可以胜任更复杂的推理任务,在数学、代码和其他科学领域也能解决更难的问题。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

OpenAI这次“无预警发布”震撼了科技圈,o1更是被CEO奥特曼称它为了一种新范式的开始。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

发布之后,各路大神和网友都纷纷用各种问题测试OpenAI o1的表现:SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

还有人进行了花式考验,结果被o1强大的推理能力秀到了。SVq28资讯网——每日最新资讯28at.com

Q:你的回复中有几个字? A1:这句话有七个字 A2:一共五个字SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

量子位也进行了一番实测,下面就一起来了解。SVq28资讯网——每日最新资讯28at.com

推理能力大进化,但还是难敌弱智吧SVq28资讯网——每日最新资讯28at.com

该说不说,o1虽然在推理能力上取得了很大进步,但面对充满心机的弱智吧问题,还是掉进了人类挖的陷阱。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

当然了,对于正经问题,o1的表现还是很强的,首先看看逻辑推理能力。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

思考这道题时,preview和mini分别用时21秒和14秒,不过从文本上看mini思考得反而更多。SVq28资讯网——每日最新资讯28at.com

其中还出现了一些西里尔字母乱入,不过对整体影响不大。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

终,二者也都给出了正确的答案——丙。SVq28资讯网——每日最新资讯28at.com

值得注意的是,mini(右)的解答当中还出现了修正的过程。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

接下来看下o1在大学数理化题目上的表现。SVq28资讯网——每日最新资讯28at.com

首先是这道考研数学真题,涉及的知识点是曲面积分、高斯定理等内容:SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

还是分别看下preview和mini的思考,可以看到mini的思考过程大概是preview的简略版,当然速度也快了不少。SVq28资讯网——每日最新资讯28at.com

不过preview给的思考过程当中再次出现乱入,这次是泰语。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

实际解答过程也是preview比mini更加详细,不过不知道为什么preview用了英文回答。SVq28资讯网——每日最新资讯28at.com

后的计算结果化简方式也有所不同,但数值上是相等的,而且也做对了。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

对比4o这边,先偷懒后作弊(调用了代码解释器),结果后答案还是错的。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

第二道数学题关于概率。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

这道题preview依然是用英语进行了作答,步骤比mini更加详细,当然都是对的。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

而4o的答案前面的过程倒是基本都对,但是后一步的求解出现了问题,只给出了1这一个解,并且不是本题答案。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

物理方面,这里选择了一道大学物理中的光学题:SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

preview(左)和mini都给出了正确解答,内容也基本一致。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

化学的题目是一道物化题,主要涉及电化学等内容。SVq28资讯网——每日最新资讯28at.com

这里把AgCl/Ag的标准电极电势作为已知条件一同输入给模型。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

Preview(左)和mini大致的解题思路还是差不多,在计算步骤上有指对运算先后的差别,当然后的结果还是对的。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

后一项测试就不再做考试题了,而是看看模型编写代码的能力如何。SVq28资讯网——每日最新资讯28at.com

这里选择的题目难度非常高,真人的通过率只有14%。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

以下是preview(左)和mini的解题思路:SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

从代码上看,两者核心逻辑相似,但在具体操作上略有区别。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

两套代码均通过了测试,内存消耗也比较接近,而mini给出的代码运行时间更短(38毫秒)。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

o1的编程能力除了用来解题,也可以快速构建出实用的应用程序。SVq28资讯网——每日最新资讯28at.com

知名AI配音工具ElevenLabs设计部门负责人Ammaar Reshi,就利用o1搭配Cursor Composer,用了不到10分钟的时间制作了一款iOS天气应用。SVq28资讯网——每日最新资讯28at.com

小数比较还是不会?SVq28资讯网——每日最新资讯28at.com

测试发现,对于大模型难以答对的名场面——小数比大小,preview(左)和mini都答不对。SVq28资讯网——每日最新资讯28at.com

甚至preview在思考过程中明明已经提到过9.8比9.11大。SVq28资讯网——每日最新资讯28at.com

但同时preview在思考过程中表示,9.8和9.11有可能指的是日期,所以做不对也许另一原因。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

针对这个问题,大神谢赛宁也晒出了他的测试结果,发现o1在思考过程中将9.8当成了重力常数,而9.11是一个“意义不明的数字”。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

所以o1可能不是不会,而是把这个问题想复杂了。SVq28资讯网——每日最新资讯28at.com

为了进一步探究,我们把问题改得具体些,强调一下9.8和9.11都是数字,这下没有了歧义之后就能一次做对了。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

可以看出,提示词的影响还是不小的。SVq28资讯网——每日最新资讯28at.com

由于o1在内部采用了一些类思维链过程,因此prompt的设计和普通版本也有所区别,OpenAI官方发布了一则提示:SVq28资讯网——每日最新资讯28at.com

提示词应简单且直接SVq28资讯网——每日最新资讯28at.com

避免在提示词中使用思维链SVq28资讯网——每日最新资讯28at.com

使用分隔符让promot更清晰SVq28资讯网——每日最新资讯28at.com

控制RAG内容的长度SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

回到我们的测试,面对其他几个大模型败北名场面,o1也有不小的进步。SVq28资讯网——每日最新资讯28at.com

比如在数字母的任务上就有所进化,即使是一串乱打的字母也能数对。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

还有面对经典的“反转诅咒”(即知道A是B却不知道B是A)问题,也终于一次性答对了Mary Lee Pfeiffer(汤姆·克鲁斯的母亲)的儿子是谁。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

One More ThingSVq28资讯网——每日最新资讯28at.com

关于这次发布的o1,除了各个方面的成绩之外,还有一些其他的发现。SVq28资讯网——每日最新资讯28at.com

比如前特斯拉自动驾驶负责人、两度进入OpenAI又两度离职的大神Andrej Karpathy发现,o1-mini在被要求证明黎曼猜想的时候出现了拒绝回答的情况,表示大模型“犯懒”依然是一个大问题。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

还有网友说觉得mini的表现比preview好,想问下有没有人知道原因或者有啥看法。SVq28资讯网——每日最新资讯28at.com

这条消息也把奥特曼吸引了过来,回复了一句“Yes I have one”。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

根据OpenAI内部员工Kevin Lu发布的一则推文来看,mini的性价比确实比preview更高。SVq28资讯网——每日最新资讯28at.com

根据这张图显示,preview版本论性能比不上尚未公布的满血o1,论经济性又比不上mini。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com

顺便提一句,preview版本存在消息数量限制,并且数量是按周进行重置的,几轮测试下来已经快要用尽了。SVq28资讯网——每日最新资讯28at.com

实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解SVq28资讯网——每日最新资讯28at.com


文章出处:量子位

本文链接://www.dmpip.com//www.dmpip.com/showinfo-17-113883-0.html实测OpenAI强模型o1:会做大学数理化 但弱智吧依然难解

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: OpenAI新模型媲美博士?我找清北博士品鉴了一下:醒醒吧

下一篇: 55岁谢广坤给儿子办满月酒引网友围观:娇妻90后 相差20几岁

标签:
  • 热门焦点
  • 6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    6月安卓手机性能榜:vivo/iQOO霸占旗舰排行榜前三

    2023年上半年已经正式过去了,我们也迎来了安兔兔V10版本,在新的骁龙8Gen3和天玑9300发布之前,性能榜的榜单大体会以骁龙8Gen2和天玑9200+为主,至于那颗3.36GHz的骁龙8Gen2领先
  • 28个SpringBoot项目中常用注解,日常开发、求职面试不再懵圈

    28个SpringBoot项目中常用注解,日常开发、求职面试不再懵圈

    前言在使用SpringBoot开发中或者在求职面试中都会使用到很多注解或者问到注解相关的知识。本文主要对一些常用的注解进行了总结,同时也会举出具体例子,供大家学习和参考。注解
  • 线程通讯的三种方法!通俗易懂

    线程通讯的三种方法!通俗易懂

    线程通信是指多个线程之间通过某种机制进行协调和交互,例如,线程等待和通知机制就是线程通讯的主要手段之一。 在 Java 中,线程等待和通知的实现手段有以下几种方式:Object 类下
  • 在线图片编辑器,支持PSD解析、AI抠图等

    在线图片编辑器,支持PSD解析、AI抠图等

    自从我上次分享一个人开发仿造稿定设计的图片编辑器到现在,不知不觉已过去一年时间了,期间我经历了裁员失业、面试找工作碰壁,寒冬下一直没有很好地履行计划.....这些就放在日
  • 一文掌握 Golang 模糊测试(Fuzz Testing)

    一文掌握 Golang 模糊测试(Fuzz Testing)

    模糊测试(Fuzz Testing)模糊测试(Fuzz Testing)是通过向目标系统提供非预期的输入并监视异常结果来发现软件漏洞的方法。可以用来发现应用程序、操作系统和网络协议等中的漏洞或
  • 一文搞定Java NIO,以及各种奇葩流

    一文搞定Java NIO,以及各种奇葩流

    大家好,我是哪吒。很多朋友问我,如何才能学好IO流,对各种流的概念,云里雾里的,不求甚解。用到的时候,现百度,功能虽然实现了,但是为什么用这个?不知道。更别说效率问题了~下次再遇到,
  • ESG的面子与里子

    ESG的面子与里子

    来源 | 光子星球撰文 | 吴坤谚编辑 | 吴先之三伏大幕拉起,各地高温预警不绝,但处于厄尔尼诺大“烤”之下的除了众生,还有各大企业发布的ESG报告。ESG是“环境保
  • 三星Galaxy Z Fold5官方渲染图曝光:13.4mm折叠厚度依旧感人

    三星Galaxy Z Fold5官方渲染图曝光:13.4mm折叠厚度依旧感人

    据官方此前宣布,三星将于7月26日在韩国首尔举办Unpacked活动,届时将带来带来包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy Z Flip 5、
  • 到手价3099元起!iQOO Neo8 Pro今日首销:安卓性能最强旗舰

    到手价3099元起!iQOO Neo8 Pro今日首销:安卓性能最强旗舰

    5月23日,iQOO如期举行了新品发布会,全新的iQOO Neo8系列也正式与大家见面,包含iQOO Neo8和iQOO Neo8 Pro两个版本,其中标准版搭载高通骁龙8+,而Pro版更
Top
Baidu
map