6月20日消息,人工智能领域的专家们预测,随着人工智能生成的内容在网络上的广泛发布,未来接受这些数据训练的人工智能系统可能会陷入混乱。
英国和加拿大的科学家们在最近发表的一篇论文中,试图研究经过多代人工智能相互训练后会发生什么。他们提供了一个例子,通过九次迭代,人工智能系统从最初关于中世纪建筑的原始材料变成了不停地谈论野兔的内容。
研究论文的作者之一、剑桥大学教授罗斯·安德森在一篇博客文章中指出,数据显示经过多次迭代后,人工智能生成的文本变得毫无意义,图像也变得难以理解。尽管该研究尚未经过同行评审,但研究人员将这种现象称为"模型崩溃"。
ChatGPT这样的聊天机器人背后的大型语言模型通常需要从互联网上抓取大量人类生成的数据进行训练。然而,随着人们对这些工具的使用越来越多,人工智能生成的内容也大量涌现并被添加到在线数据集中,这些数据将成为未来语言模型的学习素材。
科学家们担心,通过使用人工智能生成的内容来迭代训练人工智能系统,会导致错误和无意义的示例不断增加,从而使后代人工智能无法区分真实和虚构的内容。他们担忧地表示,人工智能可能会"通过强化自身的信念,开始曲解其所认为的真实之物"。
罗斯·安德森以莫扎特和安东尼奥·萨列里的作品为例来解释这个问题。他表示:"如果我们使用莫扎特的作品来训练某个音乐模型,我们可以期望输出的音乐风格有些类似莫扎特,但不会有太多亮点,我们可以称之为'萨列里'。然后,再用'萨列里'来训练下一代人工智能系统,如此循环下去,第五代或第六代模型会是怎样的?"
这项研究的第一作者、牛津大学教授伊利亚·舒马伊洛夫表示,问题在于人工智能在接受早期人工智能生成内容的训练后对概率的感知。不太可能发生的事件在它的输出中越来越不可能出现,这就限制了下一代人工智能(根据这些输出进行训练)所能理解的可能性。
据ITBEAR科技资讯了解,论文中举了一个例子,将人类生成的关于中世纪建筑的文本输入到人工智能语言模型中,然后使用该模型的输出来训练下一代人工智能。最初的文本巧妙地处理了相互竞争的建筑理论,并经过多次迭代。到了第九次迭代,这些文字就变成了毫无意义的胡言乱语,其中写道:"建筑是世界上最大的黑长耳大野兔、白长耳大野兔、蓝长耳大野兔、红长耳大野兔、黄长耳大野兔的家园。"
罗斯·安德森将这种"模型崩溃"现象类比为大规模污染,他写道:"就像我们在海洋中充满了塑料垃圾,在大气中充满了二氧化碳,我们即将让互联网充斥着胡言乱语。"
越来越多的人工智能生成的内容在网络上大量涌现。今年5月,在线虚假信息监管机构NewsGuard警告称,他们发现有49个新闻网站似乎完全由人工智能撰写内容。
据报道,市场营销和公关机构越来越多地将文案外包给聊天机器人,这导致人类创作者的工作受到抢夺。然而,根据舒马伊洛夫和安德森的发现,人类创作者们希望不被人工智能击败的愿望可能还为时过早。
舒马伊洛夫表示,对于训练人工智能来说,并不绝对需要人工生成的数据。尽管这些数据具有重要价值,因为它们展示了语言中大量的自然变化、错误和不可预测的结果,但"这表明在训练人工智能时,并不需要过多依赖人类数据。"
本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-1122-0.html研究揭示:人工智能系统迭代训练可能导致"模型崩溃"
声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com