当前位置:首页 > 元宇宙 > AI

AI智慧背后的隐忧:越聪明,越爱“编造”真相?

来源: 责编: 时间:2024-09-29 16:14:56 11观看
导读**大型语言模型越强大越爱“撒谎”?新研究揭示AI准确性困境**随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答
**大型语言模型越强大越爱“撒谎”?新研究揭示AI准确性困境**

随着大型语言模型(LLM)能力的不断增强,一项新研究却发现了令人担忧的趋势:这些智能聊天机器人在回答问题时,似乎越来越倾向于编造答案,而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明,尽管AI变得更加“聪明”,但其可靠性却在实际应用中受到了质疑。xMc28资讯网——每日最新资讯28at.com

xMc28资讯网——每日最新资讯28at.com

该研究由多个知名研究机构联合进行,成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析,包括OpenAI的GPT系列、meta的LLaMA,以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后,研究人员发现,尽管新一代LLM在某些情况下的确给出了更准确的回答,但从整体来看,它们提供错误答案的频率却比旧模型更高。xMc28资讯网——每日最新资讯28at.com

瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出:“现在的LLM几乎能回答任何问题,这既是进步也是隐患。虽然正确回答的数量增加了,但错误回答的数量也同样在上升。”xMc28资讯网——每日最新资讯28at.com

在测试中,这些LLM被要求处理从数学到地理等多个领域的问题,并执行一些特定的信息排序任务。结果显示,规模更大、能力更强的模型在简单问题上表现最佳,但在面对更复杂的问题时,其准确率却显著下降。xMc28资讯网——每日最新资讯28at.com

值得注意的是,OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”,但这一趋势并非孤例,其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中,即便是最简单的问题,也没有任何一个模型能够达到60%的准确率。xMc28资讯网——每日最新资讯28at.com

当被要求评估聊天机器人答案的准确性时,参与测试的人类受试者也表现出了相当程度的不确定性,他们在10%到40%的情况下做出了错误的判断。xMc28资讯网——每日最新资讯28at.com

这项研究揭示了一个重要的问题:随着AI模型的规模和能力的不断提升,如何确保它们提供的答案是准确且可靠的?研究人员建议,一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默,而不是盲目地给出答案。Hernández-Orallo表示:“我们可以设定一个阈值,让聊天机器人在遇到具有挑战性的问题时能够说‘不,我不知道’。”然而,这种做法也可能会暴露当前技术的局限性,从而影响用户对AI的信任和接受度。xMc28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-7915-0.htmlAI智慧背后的隐忧:越聪明,越爱“编造”真相?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 科大讯飞进军云南,新成立信息科技公司,布局西南市场?

下一篇: 字节跳动新推豆包视频生成模型:AI与现实界限模糊,你能分清吗?

标签:
  • 热门焦点
  • 沉寂3年,大模型激活小度天猫精灵?

    沉寂3年,大模型激活小度天猫精灵?

    Tech星球(微信ID:tech618)文 | 何煦阳 沉寂了许久的智能音箱,在今年大模型横空出世之后,又再次燃起了新的希望。 2月9日,小度宣布将融合文心一言,打造针对智能设备场景的AI模型&ldq
  • 元宇宙里卖酸奶,好炸裂的操作!

    元宇宙里卖酸奶,好炸裂的操作!

    作者 | 李东阳 来源 | 首席营销官有没有发现,当下的热搜出现一个有意思的现象,那就是“情怀”不知不觉成为了主流,爷青回话题讨论性非常高。前有名侦探柯南和优衣库
  • VR/AR迷失元宇宙“硝烟”

    VR/AR迷失元宇宙“硝烟”

    不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵,又随着元宇宙回归平静。1月份,微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员,其中负责混合现实硬件(MR)的Holo
  • 聚焦虚拟数字人技术,这三大商机要抓住!

    聚焦虚拟数字人技术,这三大商机要抓住!

    关于虚拟数字人,企业可以从三个方面入局,分别是ToG(To Government,面向政府),即为数字政府和数字城市提供支持服务;ToB(To Business,面向企业),即为企业提供虚拟员工解决方案;ToC(To Cons
  • 茅台的元宇宙App火了,也被骂惨了

    茅台的元宇宙App火了,也被骂惨了

    元宇宙从概念走向大众生活,并不是一件简单的事情。技术、世界观、填充内容、载体形式,每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
  • 《刀剑神域》VR展开幕;《Puzzling Places》发布第二个付费DLC

    《刀剑神域》VR展开幕;《Puzzling Places》发布第二个付费DLC

    今日热点:《刀剑神域:Ex-Chronicle Online Edition》VR展开幕;虚拟活动平台EventX再获800万美元B轮融资;VR射击游戏《Outlier》确认将于3月17日登陆Steam平台等。
  • NFT:新骗局的狩猎场

    NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
  • GameFi 深度解析,元宇宙内容雏形显现

    GameFi 深度解析,元宇宙内容雏形显现

    GameFi=Game(游戏)+Defi(去中心化金融),核心特点为“Play to Earn”。通过技术与去中心化价值观赋能,GameFi 游戏资产化身为NFT 和代币上链,具备了可验证性和流通性;开
  • 冬奥会数字收藏品升温,市场再现“一墩难求”

    冬奥会数字收藏品升温,市场再现“一墩难求”

    根据公开信息显示,国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售,总数为500个,每个99美元,每人限购5个。此外,不同的奥运徽章数字藏
Top
Baidu
map