当前位置：首页 > 元宇宙 > AI

OpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

来源：责编：时间：2024-06-06 17:36:04 105观看

导读除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。EPFL（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究“上下文学习足以让大模型跟随指令吗？”。

除了 OpenAI 自己，居然还有别人能用上 GPT-4-Base 版？？也就是未经微调的预训练版，还不会对话聊天，只会补全句子的模型。

EPFL（瑞士洛桑联邦理工）团队申请到了访问权限，用于研究“上下文学习足以让大模型跟随指令吗？”。

也就是不用监督微调、也不用 RHLF 或其他强化学习对齐方法，只靠提示词能走多远？

预训练模型，究竟能不能一步登天，直接改造成聊天机器人或 AI 助手？

如果可行，将大大降低类 ChatGPT 大模型的开发难度。

免微调对齐靠谱吗？

免微调对齐，让刚出炉的预训练模型不止会“文本补全”，只从提示词中学会和用户对话、跟随指令，一直是业界关注的研究方向。

目前的 SOTA 方法（指某个领域在之前的研究中效果最好的方法）URIAL 来自艾伦研究所，使用系统提示词 + 少数风格示例就能达到不错的效果。

但 EPFL 团队发现，URIAL 仍无法完全弥补与指令微调模型的差距，尤其在多轮对话中的表现更差一些。

实验中，在 Llama 系列、Mistral 系列和一般人接触不到的 GPT-4-Base 都观察到这种现象。

其中 GPT-4-Base 的 API 访问权限从 OpenAI Researcher Access Program 项目中申请到。

EPFL 团队从这里出发，尝试了各种办法来提升上下文学习的效果。

首先他们增加示例的数量，但发现帮助不大，没有随着例子数目增加性能就提升的趋势。这一点跟图像分类、机器翻译等任务还不太一样。

然后他们使用了贪心搜索算法，从一大堆示例中选择最佳的添加到上下文。

这种方法可以进一步提高性能，但与指令微调模型的差距仍然存在，特别是在 AlpacaEval 2.0 基准测试中。

此外他们还发现，贪心搜索为某个特定模型找到的最佳示例，对于其他模型不能可靠地迁移。

也就是说，不同的示例适合不同的模型。

团队还进行了一系列消融实验（指移除或变换某个组件，来研究该组件对系统功能的影响），以更多地了解上下文学习的工作原理。

他们发现，在 MT-Bench 这样的综合评测中，示例包含正确的“问题-答案对”至关重要。

这与此前大模型在分类任务中，只要有大量示例，部分标签错了也无所谓的发现非常不同。

所以最终得出的结论是：

即使采用更多复杂的改进方法，完全缩小上下文学习和指令微调之间的差距也有挑战，即使对于非常长上下文的大模型也是如此。

论文最后分析，大语言模型可能通过上下文学习只学会了如何模仿例子里的回答风格，但还没有真正理解执行指令的逻辑。

指令跟随任务相对还是比较复杂和开放的，没那么容易掌握。

想让 AI 助手更“听话”，暂时还是很难有捷径可走。

论文地址：

https://arxiv.org/abs/2405.19874

参考链接：

[1]https://x.com/maksym_andr/status/1796574297894318136

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-4512-0.htmlOpenAI 把 GPT-4 原始版给了瑞士洛桑联邦理工团队：研究不微调只靠提示词能走多远

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： Zoom 创始人谈视频会议未来：数字人“代劳”参会，本人可抽出时间陪伴家人

下一篇： “全球首创”单台 RTX 4090 服务器推理，昆仑万维开源 2 千亿稀疏大模型天工 MoE

标签：

热门焦点

沉寂3年，大模型激活小度天猫精灵？

Tech星球（微信ID：tech618）文 | 何煦阳沉寂了许久的智能音箱，在今年大模型横空出世之后，又再次燃起了新的希望。 2月9日，小度宣布将融合文心一言，打造针对智能设备场景的AI模型&ldq
AIGC产品测评TOP25丨谁能抢到下个十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦阳策划 | 杨晓鹤封面来源 | 图虫创意 2016年，李彦宏站在百度联盟峰会的讲台上，向所有人宣布：互联网的下一幕是人工智能。同年，Google 旗下 Dee
元宇宙火热的当下，我们该如何“身临其境”的体验元宇宙？

元宇宙的余热依然没有过去，甚至大有星星之火开启燎原之势，元宇宙本身也从殿堂走向了民间，我们可以看到一些企业开始了元宇宙的探索，诸如中国电信全资控股子公司天
城市数字孪生标准化白皮书（2022版）

当前，城市数字孪生已经发展成为支撑智慧城市的重要技术手段。城市数字孪生通过在数字空间对城市物理空间和社会空间进行全要素表达、全过程呈现、全周期可溯，实
字节觅《原神》，腾讯元宇宙，游戏新王战旧神？

文 | 陈桥辉陈奕迅的《红玫瑰》中有一句歌词，“得不到的永远在骚动”，这句话用到如今国内头部游戏平台再合适不过。随着《原神》的异军突起，使得头部游戏大厂感受
Meta展示AI系统Builder Bot；《Pistol Whip》增加派对模式

今日热点：Meta展示AI系统Builder Bot；招聘信息显示Meta正在探索具有蜂窝连接功能的VR/AR头显；英国VR工作室Coatsink Games正在为PSVR 2开发新游戏；VR节奏射击游戏
重温 1602 年：DAO 是新的企业范式吗？

作者：Andrew Singer“ 将你的选票委托给行业有能力的专家，将使所有者在这些公司的管理中拥有更强大、更清晰的话语权。”1602 年，荷兰东印度公司成立，许多人认为
NFT也有黄牛？这家公司专门对付外挂作弊机器人

澳大利亚前总理马尔科姆·特恩布尔 (Malcolm Turnbull) 是支持萨姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于纽卡斯尔的黑客，他的职业生涯始于为国防
从4个方面解析2022年加密行业趋势

作者：去月球基础设施瓶颈仍然存在尽管2021年公链基础设施之间的竞争显著升温，但关键瓶颈仍需解决。例如，以太坊作为DApp开发的顶级公链，仍然遭受网络拥塞和高额交