当前位置:首页 > 元宇宙 > AI

清华大学合作推出看图答题小能手 CogAgent:可告知《原神》游戏操作步骤等

来源: 责编: 时间:2024-01-02 09:26:41 178观看
导读 12 月 27 日消息,清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作

12 月 27 日消息,清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。1re28资讯网——每日最新资讯28at.com

1re28资讯网——每日最新资讯28at.com

该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。1re28资讯网——每日最新资讯28at.com

1re28资讯网——每日最新资讯28at.com

CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。1re28资讯网——每日最新资讯28at.com

例如,用户输入一张关于 CogVLM 项目的 GitHub 的图片,然后询问如何给这个项目点“Star”,然后 CogAgent 就会反馈出结果。1re28资讯网——每日最新资讯28at.com

1re28资讯网——每日最新资讯28at.com

图源:中国网科学

例如用户输入一张原神游戏的截图,可以询问“当前任务中的队友是谁?”,CogAgent 会给出相关的回答。1re28资讯网——每日最新资讯28at.com

1re28资讯网——每日最新资讯28at.com

附上相关信息地址如下:1re28资讯网——每日最新资讯28at.com

论文:https://arxiv.org/abs/2312.089141re28资讯网——每日最新资讯28at.com

Demo:Streamlit1re28资讯网——每日最新资讯28at.com

代码:https://github.com/THUDM/CogVLM1re28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-3084-0.html清华大学合作推出看图答题小能手 CogAgent:可告知《原神》游戏操作步骤等

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 韩国首尔明年将启用无人机及人工智能监控交通状况

下一篇: 算力巨兽能耗惊人:英伟达 H100 AI 芯片总耗电量将超欧洲小国

标签:
  • 热门焦点
Top
Baidu
map