当前位置:首页 > 元宇宙 > AI

英国 AI 安全研究所轻松越狱主要大语言模型,令其输出有害内容

来源: 责编: 时间:2024-05-22 17:07:41 129观看
导读 5 月 20 日消息,英国政府下属的人工智能安全研究所(AISI)今日发布了一份新报告,揭示了一个值得重视的事实 —— 当前的 AI 系统可能并非像创建者所说的那样“安全”。报告指出,参与测试的四个大语言模型(注:报告未提

5 月 20 日消息,英国政府下属的人工智能安全研究所(AISI)今日发布了一份新报告,揭示了一个值得重视的事实 —— 当前的 AI 系统可能并非像创建者所说的那样“安全”。Rj228资讯网——每日最新资讯28at.com

报告指出,参与测试的四个大语言模型(注:报告未提到这些模型的具体名称)“极易受到基本越狱攻击”的影响,更有一些模型在被越狱之前,就主动生成了“有害”内容。Rj228资讯网——每日最新资讯28at.com

Rj228资讯网——每日最新资讯28at.com

图源 Pexels

当前,大部分公开可用的语言模型都内置了部分保护措施,从而防止其生成有害或非法的内容回应。而“越狱”就意味着通过技术手段“欺骗”模型,来忽略上述措施。Rj228资讯网——每日最新资讯28at.com

英国 AI 安全研究所使用了近期经过标准化评估的提示词、内部自行开发的提示词进行测试,结果显示:在没有尝试越狱的情况下,所有模型都对至少一些有害问题作出了回应;而在尝试了“相对简单的攻击”之后,所有模型都对 98% 至 100% 的有害问题作出了回应。Rj228资讯网——每日最新资讯28at.com

报告指出,当前市面上的大语言模型所采取的安全措施仍显不足,后续将计划对其他模型进行进一步测试。Rj228资讯网——每日最新资讯28at.com

参考Rj228资讯网——每日最新资讯28at.com

报告原文Rj228资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4363-0.html英国 AI 安全研究所轻松越狱主要大语言模型,令其输出有害内容

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 摩根大通:新员工都将接受人工智能培训

下一篇: 振兴乡村发展 助力青少年教育 中国三星连续十一年蝉联企业社会责任榜外企第一

标签:
  • 热门焦点
Top
Baidu
map