当前位置：首页 > 元宇宙 > AI

AI智慧背后的隐忧：越聪明，越爱“编造”真相？

来源：责编：时间：2024-09-29 16:14:56 11观看

导读**大型语言模型越强大越爱“撒谎”？新研究揭示AI准确性困境**随着大型语言模型（LLM）能力的不断增强，一项新研究却发现了令人担忧的趋势：这些智能聊天机器人在回答问题时，似乎越来越倾向于编造答案，而非谨慎地避免或拒绝回答

**大型语言模型越强大越爱“撒谎”？新研究揭示AI准确性困境**

随着大型语言模型（LLM）能力的不断增强，一项新研究却发现了令人担忧的趋势：这些智能聊天机器人在回答问题时，似乎越来越倾向于编造答案，而非谨慎地避免或拒绝回答它们不确定的问题。这种行为模式表明，尽管AI变得更加“聪明”，但其可靠性却在实际应用中受到了质疑。

该研究由多个知名研究机构联合进行，成果已发表在《自然》杂志上。研究团队对市面上领先的商业LLM进行了深入分析，包括OpenAI的GPT系列、meta的LLaMA，以及开源模型BLOOM。在对比了这些模型在不同主题和问题类型上的表现后，研究人员发现，尽管新一代LLM在某些情况下的确给出了更准确的回答，但从整体来看，它们提供错误答案的频率却比旧模型更高。

瓦伦西亚人工智能研究所的研究员José Hernández-Orallo指出：“现在的LLM几乎能回答任何问题，这既是进步也是隐患。虽然正确回答的数量增加了，但错误回答的数量也同样在上升。”

在测试中，这些LLM被要求处理从数学到地理等多个领域的问题，并执行一些特定的信息排序任务。结果显示，规模更大、能力更强的模型在简单问题上表现最佳，但在面对更复杂的问题时，其准确率却显著下降。

值得注意的是，OpenAI的GPT-4和o1模型在测试中成为了最大的“撒谎者”，但这一趋势并非孤例，其他被研究的LLM也呈现出了类似的倾向。特别是在LLaMA系列模型中，即便是最简单的问题，也没有任何一个模型能够达到60%的准确率。

当被要求评估聊天机器人答案的准确性时，参与测试的人类受试者也表现出了相当程度的不确定性，他们在10%到40%的情况下做出了错误的判断。

这项研究揭示了一个重要的问题：随着AI模型的规模和能力的不断提升，如何确保它们提供的答案是准确且可靠的？研究人员建议，一个可能的解决方案是让LLM在面对不确定的问题时学会保持沉默，而不是盲目地给出答案。Hernández-Orallo表示：“我们可以设定一个阈值，让聊天机器人在遇到具有挑战性的问题时能够说‘不，我不知道’。”然而，这种做法也可能会暴露当前技术的局限性，从而影响用户对AI的信任和接受度。

本文链接：//www.dmpip.com//www.dmpip.com/showinfo-45-7915-0.htmlAI智慧背后的隐忧：越聪明，越爱“编造”真相？

声明：本网页内容旨在传播知识，若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。邮件：2376512515@qq.com

上一篇：科大讯飞进军云南，新成立信息科技公司，布局西南市场？

下一篇：字节跳动新推豆包视频生成模型：AI与现实界限模糊，你能分清吗？

标签：

热门焦点

沉寂3年，大模型激活小度天猫精灵？

Tech星球（微信ID：tech618）文 | 何煦阳沉寂了许久的智能音箱，在今年大模型横空出世之后，又再次燃起了新的希望。 2月9日，小度宣布将融合文心一言，打造针对智能设备场景的AI模型&ldq
元宇宙里卖酸奶，好炸裂的操作！

作者 | 李东阳来源 | 首席营销官有没有发现，当下的热搜出现一个有意思的现象，那就是“情怀”不知不觉成为了主流，爷青回话题讨论性非常高。前有名侦探柯南和优衣库
VR/AR迷失元宇宙“硝烟”

不温不火的VR/AR可穿戴设备因元宇宙崛起火了一阵，又随着元宇宙回归平静。1月份，微软在 Surface 设备、HoloLens 混合现实硬件和 Xbox 等部门裁员，其中负责混合现实硬件（MR）的Holo
聚焦虚拟数字人技术，这三大商机要抓住！

关于虚拟数字人，企业可以从三个方面入局，分别是ToG（To Government，面向政府），即为数字政府和数字城市提供支持服务；ToB（To Business，面向企业），即为企业提供虚拟员工解决方案；ToC（To Cons
茅台的元宇宙App火了，也被骂惨了

元宇宙从概念走向大众生活，并不是一件简单的事情。技术、世界观、填充内容、载体形式，每一个环节都需要层层叠叠的逻辑。但正如赛博朋克奠基人威廉·吉布
《刀剑神域》VR展开幕；《Puzzling Places》发布第二个付费DLC

今日热点：《刀剑神域：Ex-Chronicle Online Edition》VR展开幕；虚拟活动平台EventX再获800万美元B轮融资；VR射击游戏《Outlier》确认将于3月17日登陆Steam平台等。
NFT：新骗局的狩猎场

骗局的自动化需要更好的防御，从数字身份开始。前几天我在OpenSea上购买了一个NFT，是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画，来自她的 "原作 "收
GameFi 深度解析，元宇宙内容雏形显现

GameFi=Game（游戏）+Defi（去中心化金融），核心特点为“Play to Earn”。通过技术与去中心化价值观赋能，GameFi 游戏资产化身为NFT 和代币上链，具备了可验证性和流通性；开
冬奥会数字收藏品升温，市场再现“一墩难求”

根据公开信息显示，国际奥委会官方授权的冰墩墩数字盲盒于北京时间2月12日凌晨在nWayPlay平台发售，总数为500个，每个99美元，每人限购5个。此外，不同的奥运徽章数字藏