当前位置：首页 > 元宇宙 > AI

大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

来源：责编：时间：2024-04-03 09:03:33 138观看

导读让大模型直接操纵格斗游戏《街霸》里的角色，捉对 PK，谁更能打？GitHub 上一种你没有见过的船新 Benchmark 火了。与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 A

让大模型直接操纵格斗游戏《街霸》里的角色，捉对 PK，谁更能打？

GitHub 上一种你没有见过的船新 Benchmark 火了。

与 llmsys 大模型竞技场中，两个大模型分别输出答案，再由人类评分不同 —— 街霸 Bench 引入了两个 AI 之间的交互，且由游戏引擎中确定的规则评判胜负。

这种新玩法吸引了不少网友来围观。

由于项目是在 Mistral 举办的黑客马拉松活动上开发，所以开发者只使用 OpenAI 和 Mistral 系列模型进行了测试。

排名结果也很出人意料。经过 342 场对战后，根据棋类、电竞常用的 ELO 算法得出的排行榜如下：

最新版 gpt-3.5-turbo 成绩断崖式领先，Mistral 小杯排第二。更小的模型超过了更大的如 GPT-4 和 Mistral 中杯大杯。

开发者认为，这种新型基准测试评估的是大模型理解环境并根据特定情况采取行动的能力。

与传统的强化学习也有所不同，强化学习模型相当于根据奖励函数“盲目地”采取不同行动，但大模型完全了解自身处境并有目的的采取行动。

考验 AI 的动态决策力

AI 想在格斗游戏里称王，需要哪些硬实力呢？开发者给出几个标准:

反应要快：格斗游戏讲究实时操作，犹豫就是败北

脑子要灵：高手应该预判对手几十步，未雨绸缪

思路要野：常规套路人人会，出奇制胜才是制胜法宝

适者生存：从失败中吸取教训并调整策略

久经考验：一局定胜负不说明问题，真正的高手能保持稳定的胜率

具体玩法如下：

每个大模型控制一个游戏角色，程序向大模型发送屏幕画面的文本描述，大模型根据双方血量、怒气值、位置、上一个动作、对手的上一个动作等信息做出最优决策。

第一个挑战是定位人物在场景中的位置，通过检测像素颜色来判断。

由于目前大模型数学能力还都不太行，直接发送坐标值效果不好，最终选择了将位置信息改写成自然语言描述。

所以对于 AI 来说，实际上他们在玩的是一种奇怪的文字冒险游戏。

再把大模型生成的动作招式映射成按键组合，就能发送给游戏模拟器执行了。

在试验中发现，大模型可以学会复杂的行为，比如仅在对手靠近时才攻击，可能的情况下使用特殊招式，以及通过跳跃来拉开距离。

从结果上可以看出，与其他测试方法不同，在这个规则下似乎更大的模型表现越差。

开发者对此解释到：

目标是评估大模型的实时决策能力，规则上允许 AI 提前生成 3-5 个动作，更大的模型能提前生成更多的动作，但也需要更长的时间。

在推理上的延迟差距是有意保留的，但后续或许会加入其他选项。

后续也有用户提交了流行开源模型的对战结果，在 7B 及以下量级的战斗中，还是 7B 模型排名更靠前。

从这个角度看，这种新型基准测试为评估大模型的实用性提供了新思路。

现实世界的应用往往比聊天机器人复杂得多，需要模型具备快速理解、动态规划的本领。

正如开发者所说，想要赢，要在速度和精度之间做好权衡。

GitHub 项目：

https://github.com/OpenGenerativeAI/llm-colosseum

参考链接：

[1]https://x.com/nicolasoulianov/status/1772291483325878709

[2]https://x.com/justinlin610/status/1774117947235324087

本文来自微信公众号：量子位（ID：QbitAI），作者：梦晨

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-3817-0.html大模型实时打《街霸》捉对 PK：GPT-4 不敌 3.5，新型 Benchmark 火了

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇： OpenAI携Sora进军好莱坞，与电影巨头共商AI未来

下一篇：消息称 OpenAI 将于本月在日本东京设立亚洲首个办事处

标签：

热门焦点

元宇宙带来沉浸式智能登录？你学会了吗？

备受资本市场宠爱的元宇宙概念，正掀起一番番波澜。元宇宙作为虚实相融的互联网应用和社会形态，与沉浸式体验紧密相关。多重路径，打造无感知沉浸式智能登录《设计
元宇宙将会如何塑造未来的工作方式？

科幻小说家尼尔·斯蒂芬森 (Neal Stephenson) 在1992年就创造了“元宇宙”一词，但事实上，在Facebook将其更名为Meta以反映其将这一科幻愿景变为现实的战略重点之
保时捷推出虚拟超跑，车企元宇宙营销这么香？

保时捷又出超跑了，不过这次不是在现实世界，而是在虚拟世界。这款Vision Gran Turismo概念车，由保时捷和日本视频游戏开发工作室Polyphony Digital联合打造，将于202
Meta元宇宙女性安全问题频发，元宇宙中相关问题该如何解决？

在女性遭受性骚扰甚至被攻击的事件相继被报道之后，仍处于萌芽状态的虚拟现实空间成为人们关注的焦点。许多女性发声表示在使用Meta旗下的Horizon Worlds及其姊
Layer1的新以太坊，更好的以太坊？

以太坊作为区块链基础设施地位看起来已不可动摇，但也面临着费用高、效率低、偏离去中心化初衷等问题。平台上既得利益群体的形成和固化也逐渐让革新变得困难。
以太坊升级将会带来的5个改变

以太坊自2015年诞生以来就广受欢迎，但最近其昂贵的交易费用和低可扩展性对执行复杂的应用程序产生了负面作用，用户对以太坊改进的需求也日益急迫。以太坊2.0已进
顶流IP“冰墩墩”带着中国元素NFT进入全球视野

一场被国际奥委会主席评价堪称独具匠心、非凡卓越的2022年北京冬季奥运会，在这个“双奥之城”经历了16个令人难忘的精彩日夜，最终圆满闭幕。让我们印象深刻的不
元宇宙需要的5个重要安全功能

元宇宙的可能用途使其成为一个令人难以置信的概念，但是，就像科技界的任何事物一样，需要做一些事情来控制其使用。元宇宙的安全功能需要仔细考虑和开发，以保护用户
多位全国政协委员提交元宇宙提案，国金证券称元宇宙仍处初期投资阶段

财联社|区块链日报2日讯今日《元宇宙新鲜事》有：全国政协委员刘伟建议出台“元宇宙中国”的顶层设计方案；国金证券称元宇宙仍处初期投资庞大获利不易阶段；阿联酋