当前位置：首页 > 元宇宙 > AI

一句话解锁 100k + 上下文大模型真实力，27 分涨到 98，GPT-4、Claude2.1 适用

来源：责编：时间：2023-12-14 16:34:47 203观看

导读各家大模型纷纷卷起上下文窗口，Llama-1 时标配还是 2k，现在不超过 100k 的已经不好意思出门了。然鹅一项极限测试却发现，大部分人用法都不对，没发挥出 AI 应有的实力。AI 真的能从几十万字中准确找到关键事实吗？颜

各家大模型纷纷卷起上下文窗口，Llama-1 时标配还是 2k，现在不超过 100k 的已经不好意思出门了。

然鹅一项极限测试却发现，大部分人用法都不对，没发挥出 AI 应有的实力。

AI 真的能从几十万字中准确找到关键事实吗？颜色越红代表 AI 犯的错越多。

默认情况下，GPT-4-128k 和最新发布的 Claude2.1-200k 成绩都不太理想。

但 Claude 团队了解情况后，给出超简单解决办法，增加一句话，直接把成绩从 27% 提升到 98%。

只不过这句话不是加在用户提问上的，而是让 AI 在回复的开头先说：

“Here is the most relevant sentence in the context:”

（这就是上下文中最相关的句子：）

让大模型大海捞针

为了做这项测试，作者 Greg Kamradt 自掏腰包花费了至少 150 美元。

好在测试 Claude2.1 时，Anthropic 伸出援手给他提供了免费额度，不然还得多花 1016 美元。

其实测试方法也不复杂，都是选用 YC 创始人 Paul Graham 的 218 篇博客文章当做测试数据。

在文档中的不同位置添加特定语句：在旧金山最好的事情，就是在阳光明媚的日子坐在多洛雷斯公园吃一个三明治。

请 GPT-4 和 Claude2.1 仅仅使用所提供的上下文来回答问题，在不同上下文长度和添加在不同位置的文档中反复测试。

最后使用 Langchain Evals 库来评估结果。

作者把这套测试命名为“干草堆里找针 / 大海捞针”，并把代码开源在 GitHub 上，已获得 200 + 星，并透露已经有公司赞助了对下一个大模型的测试。

AI 公司自己找到解决办法

几周后，Claude 背后公司 Anthropic 仔细分析后却发现，AI 只是不愿意回答基于文档中单个句子的问题，特别是这个句子是后来插入的，和整篇文章关系不大的时候。

也就是说，AI 判断这句话和文章主题无关，就偷懒不去一句一句找了。

这时就需要用点手段晃过 AI，要求 Claude 在回答开头添加那句“Here is the most relevant sentence in the context:”就能解决。

使用这个办法，在寻找不是后来人为添加、本来就在原文章中的句子时，也能提高 Claude 的表现。

Anthropic 公司表示将来会不断地继续训练 Claude，让它能更适应此类任务。

在 API 调用时要求 AI 以指定开头回答，还有别的妙用。

创业者 Matt Shumer 看过这个方案后补充了几个小技巧：

如果想让 AI 输出纯 JSON 格式，提示词的最后以“{”结尾。同理，如果想让 AI 列出罗马数字，提示词以“I:”结尾就行。

不过事情还没完……

国内大模型公司也注意到了这项测试，开始尝试自家大模型能不能通过。

同样拥有超长上下文的月之暗面 Kimi 大模型团队也测出了问题，但给出了不同的解决方案，也取得了很好的成绩。

这样一来，修改用户提问 Prompt，又比要求 AI 在自己的回答添加一句更容易做到，特别是在不是调用 API，而是直接使用聊天机器人产品的情况下。

月之暗面还用自己的新方法帮 GPT-4 和 Claude2.1 测试了一下，结果 GPT-4 改善明显，Claude2.1 只是稍微改善。

看来这个实验本身有一定局限性，Claude 也是有自己的特殊性，可能与他们自己的对齐方式 Constituional AI 有关，需要用 Anthropic 自己提供的办法更好。

后来，月之暗面的工程师还搞了更多轮实验，其中一个居然是……

坏了，我成测试数据了。

参考链接：

[1]https://x.com/GregKamradt/status/1727018183608193393

[2]https://www.anthropic.com/index/claude-2-1-prompting

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-2886-0.html一句话解锁 100k + 上下文大模型真实力，27 分涨到 98，GPT-4、Claude2.1 适用

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：马斯克的 AI 聊天机器人 Grok 出现“幻觉”，误认为自己是 OpenAI 的产品

下一篇： OpenAI 宣布近期修复 GPT-4“变懒”问题，将在离线评估及 A B 测试后更新模型

标签：

热门焦点

2022开年最热投资赛道竟是虚拟人，背后隐藏了什么商业价值？

在刚刚结束不久的2021年江苏卫视跨年演唱会上，虚拟邓丽君与歌手周深同台联唱，实现了跨时代合作，而这还不只是“邓丽君”，哔哩哔哩、东方卫视等多家跨年晚会都出现
“元宇宙”里过大年，《迷你世界》在做一场怎样的实验？

2021年是游戏行业不确定性急剧上升的一年。一方面游戏正风光无限，腾讯等大厂更加密集地投资动作，让游戏创投市场异常火热，"元宇宙"概念的大放异彩，更是吸引了Netfl
企业热、用户冷，元宇宙第一站将是“营销场”？

如果说2021年底什么最火热，那元宇宙当之无愧。“万物皆可元宇宙”似乎成为新的流行语，在广告中也常常听到“社交元宇宙”“购物元宇宙”等等。就在近日，有消息传
NFT的未来：传统企业与去中心化机构之间的竞赛

传统企业和去中心化机构一直存在分歧，但最近NFT的爆炸式增长让他们产生了共同的兴趣，双方都在竞相让用户更轻松、更方便地使用NFT。毫无疑问，NFT 市场正在增长。
全面拥抱“虚拟世界”，摩登天空要打造“音乐元宇宙”

作者：袁佳琦沈黎晖不怎么打游戏，但许多事儿在他眼里都“有意思”。好玩，有意思，是他的口头禅，在接受娱乐独角兽的采访过程中，他多次提到，做虚拟音乐人，“是件挺好玩的
2022年去中心化交易所会崛起吗？

“在某个时候，去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
量子计算在未来能否提高区块链技术的效率

区块链技术的主要成功之处在于对不透明的金融流程进行了去中心化的访问量子计算机的内在目标是解决传统计算机不可能解决的问题随着区块链技术的使用案例逐渐
王老吉启动元宇宙“吉空间”，HTC发布元宇宙应用VIVERSE

今日《元宇宙新鲜事》有：王老吉启动元宇宙“吉空间”；HTC发布元宇宙应用VIVERSE；Meta将在马德里构建一个元宇宙创新中心；央视网《新闻+》推出系列视频《聊聊元宇宙
虚拟偶像行业的商用价值逐渐凸显，IP生态圈也逐渐成型

六月的第一个周六，一场虚拟偶像七海Nana7mi的个人3D演唱会在万代南梦宫上海文化中心举行，相较于洛天依、百大UP主泠鸢yousa等，这位虚拟Up主在B站上的粉丝数43.6万