| 人工智能的“数据瓶颈”-28资讯网——每日最新资讯28at.com - 天津谷骐科技有限公司
当前位置:首页 > 科技  > 资讯

瞭望 | 人工智能的“数据瓶颈”

来源: 责编: 时间:2024-04-11 09:01:10 96观看
导读  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强  在全球范围内,数据存量的增长速度远远低于数

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展密码。简单来说,在同等条件下,喂的数据越多,人工智能就越强erb28资讯网——每日最新资讯28at.com

  在全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽erb28资讯网——每日最新资讯28at.com

  中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高erb28资讯网——每日最新资讯28at.com

  文 |《瞭望》新闻周刊记者 郭方达erb28资讯网——每日最新资讯28at.com

  在阿西莫夫经典科幻小说《最后的问题》当中,两个喝得醉醺醺的“程序猿”向人工智能询问了这样一个问题:“怎样使宇宙的总熵大幅降低?”erb28资讯网——每日最新资讯28at.com

  “数据不足,无法作答。”人工智能未能在第一时间解答这个问题。尽管在小说的最后,这个仿若翻版ChatGPT的人工智能在时间的尽头交出了答卷,但贯穿整个宇宙生命的过程中,它始终都在做一件事:收集数据。erb28资讯网——每日最新资讯28at.com

  数据,是人工智能赖以发展的核心资源。小说的情节固然戏剧化,但其内容却与发展生成式人工智能的现实矛盾不谋而合。erb28资讯网——每日最新资讯28at.com

  当前,“百模大战”如火如荼,头部企业竞相投身人工智能赛道,但有效数据不足,特别是高质量中文语料的短缺以及部分领域封闭式的数据生态给人工智能发展带来了掣肘。如何解决“数据瓶颈”是未来一段时期我们即将面临——或已经面临的挑战。erb28资讯网——每日最新资讯28at.com

erb28资讯网——每日最新资讯28at.com

中国科学院自动化研究所人形机器人攻关团队研制的谱系化人形机器人(2024年1月31日摄)   金立旺摄/本刊erb28资讯网——每日最新资讯28at.com

  数据海洋的“圈地运动”erb28资讯网——每日最新资讯28at.com

  海滨港口、城市霓虹、幼犬互动……近日,由美国人工智能文生视频大模型Sora生成的数个视频迅速吸引了世界目光。与“文生图”不同,Sora发布的视频长达60秒,具有丰富的运动变化,其中物品相互之间的作用关系、物理规律的刻画都达到了近乎以假乱真的地步。从物体互动到光影斑驳,屏幕上像素点的变换令人击节叹赏。erb28资讯网——每日最新资讯28at.com

  像Sora这样的生成式人工智能并不是“无中生有”。不同于以往为人们所熟悉的判别式人工智能,生成式人工智能本质上是一种建立在大模型和预训练基础上的运用海量数据所生成的“模拟器”。erb28资讯网——每日最新资讯28at.com

  海国图智研究院院长、暨南大学教授陈定定认为,快速涌现人工智能成果高度依赖于大量、多样化的数据。华大集团首席执行官尹烨说,发展人工智能,拼的不仅是“象牙塔尖”的算法更新,更是来源于开放性市场庞大的数据积累。erb28资讯网——每日最新资讯28at.com

  基于庞大数据和超高算力的“暴力美学”,是当前生成式人工智能的核心打法,也是以OpenAI为代表的一众企业的发展关键。简单来说,在同等条件下,喂的数据越多,人工智能就越强。erb28资讯网——每日最新资讯28at.com

  有数据显示,从GPT到GPT2再到GPT3,OpenAI将模型参数从1.17亿提升到15亿,然后爆炸式地提升到1750亿,以至于GPT3比以前同类型的语言模型参数量增加了十倍以上。erb28资讯网——每日最新资讯28at.com

  作为数字之海的基本构成要素,海量、优质的数据争夺已经成为国家和企业间的无声战场。OpenAI旗下产品的使用条款就明确提及,企业将保留交互数据的使用权。基于数字技术形成的通用数据、优质数据垄断,可能将成为这场数字拓荒当中,后发者无法逾越的天堑。在一定程度上可以说,掌握数据,就掌握了包括人工智能等众多未来产业的主导权。erb28资讯网——每日最新资讯28at.com

  AI“肥料”不足erb28资讯网——每日最新资讯28at.com

  如果说数据是人工智能成长的“肥料”,那么人类或许将很快面临“无肥可施”的境地。erb28资讯网——每日最新资讯28at.com

  清华大学公共管理学院教授梁正在接受采访时提到,全球范围内,数据存量的增长速度远远低于数据集规模的增长速度。据人工智能研究机构epoch的研究预测,语言数据可能在2030~2040年耗尽,其中能训练出更优性能的高质量语言数据甚至可能在2026年耗尽。erb28资讯网——每日最新资讯28at.com

  优质中文语料的大面积缺失,让AI学会说好中文成为一件难事。业内人士介绍,全球目前最有科学性和经过验证的语料来自学术资料库,包括期刊和文化、出版物,遗憾的是,在这些载体上发表文章的语言绝大部分都是英语。erb28资讯网——每日最新资讯28at.com

  一项研究显示,1900~2015年,收录于SCI的有3000多万篇文章,其中,92.5%的文章是以英语发表的;SSCI出版的400多万篇文章中,93%的文章是用英语发表。在ChatGPT的训练数据中,中文语料比重不足千分之一,英文语料占比超过92.6%。erb28资讯网——每日最新资讯28at.com

  业内人士表示,目前我国仍有大量专业领域的信息数据处于相对封闭的状态,只能在机构内部的数据库和图书馆查看,数据缺失使大模型存在一定的领域盲区,开发潜力不足。erb28资讯网——每日最新资讯28at.com

  例如,在医疗数据方面,由于历史和习惯等复杂原因,医疗机构之间存在严重的“数据孤岛”问题。《全民健康信息化调查报告》的数据显示,2021年,我国的三级医院平均只有不到20%的医疗机构采用了医疗大数据应用,二级医院更低,不足5%。erb28资讯网——每日最新资讯28at.com

  清华大学苏世民书院院长、人工智能国际治理研究院院长薛澜在近期的公开演讲中谈到,中国数据质量比较低也是一个问题。中国的数据量很大,但没有真正产业化,相对标准化的数据服务商还比较少,因为大数据服务不赚钱,公共数据企业没有意愿去清洗,定制化服务又一般收费比较高。因此,数据市场如何构建也是需要解决的问题。erb28资讯网——每日最新资讯28at.com

  数实融合解“数据瓶颈”erb28资讯网——每日最新资讯28at.com

  对于生成式人工智能来说,其核心技术特性是概率计算+标注训练。依赖大量的高质量标注数据,它才能够有效地学习并做出正确的预测和决策。erb28资讯网——每日最新资讯28at.com

  在2024年全国两会上,有代表委员建议建立数据合规的监管机制和评估办法,加强数据安全和知识产权的保护措施,加快高质量中文数据集的开发与利用。erb28资讯网——每日最新资讯28at.com

  面对可能出现的“数据荒”,梁正认为,除了此前数字化建设中已有的结构化数据资源,还有大量以语音、视频、工艺参数、操作记录等形式构成的非结构化产业数据尚可开发。此外,由计算机模拟或算法生成的带有注释的合成数据也可用于大模型训练之中,进一步提高数据质量和数量、降低数据采集和处理的成本。erb28资讯网——每日最新资讯28at.com

  不少业内人士推测,Sora可能已经通过使用了基于数据驱动的Unreal Engine5(虚幻引擎5)大量生成了合成数据作为训练集。erb28资讯网——每日最新资讯28at.com

  3月23日,国内首个千亿参数多模态金融大模型“财跃F1金融大模型”在2024全球开发者先锋大会(GDC)上首发。随着国内大模型在垂直领域加速落地,各类精细化的产业数据,又将成为新一轮的“金矿”。erb28资讯网——每日最新资讯28at.com

  “挑战在于产业数据生态的构建”,深圳开鸿数字产业发展有限公司首席执行官王成录等专家认为,“必须克服各人自扫门前雪的单兵作战思维。”erb28资讯网——每日最新资讯28at.com

  “海量工业数据由于缺乏采集而逸散。”一位从事制造行业多年的企业家表示,我国产业数据采集存在现实软肋,加强产业数据自有化,推动行业间形成数据平台,是走向垂类人工智能的必经之路。erb28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-16-82701-0.html瞭望 | 人工智能的“数据瓶颈”

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 上千项科技成果亮相首届晋江科洽会

下一篇: LG电子加薪5.2%,应届大学毕业生起薪高达5200万韩元

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 7月安卓手机好评榜:三星S23Ultra好评率第一

    7月安卓手机好评榜:三星S23Ultra好评率第一

    性能榜和性价比榜之后,我们来看最后的安卓手机好评榜,数据来源安兔兔评测,收集时间2023年7月1日至7月31日,仅限国内市场。第一名:三星Galaxy S23 Ultra好评率:95.71%在即将迎来新
  • 十个可以手动编写的 JavaScript 数组 API

    十个可以手动编写的 JavaScript 数组 API

    JavaScript 中有很多API,使用得当,会很方便,省力不少。 你知道它的原理吗? 今天这篇文章,我们将对它们进行一次小总结。现在开始吧。1.forEach()forEach()用于遍历数组接收一参
  • CSS单标签实现转转logo

    CSS单标签实现转转logo

    转转品牌升级后更新了全新的Logo,今天我们用纯CSS来实现转转的新Logo,为了有一定的挑战性,这里我们只使用一个标签实现,将最大化的使用CSS能力完成Logo的绘制与动画效果。新logo
  • 多线程开发带来的问题与解决方法

    多线程开发带来的问题与解决方法

    使用多线程主要会带来以下几个问题:(一)线程安全问题  线程安全问题指的是在某一线程从开始访问到结束访问某一数据期间,该数据被其他的线程所修改,那么对于当前线程而言,该线程
  • 为什么你不应该使用Div作为可点击元素

    为什么你不应该使用Div作为可点击元素

    按钮是为任何网络应用程序提供交互性的最常见方式。但我们经常倾向于使用其他HTML元素,如 div span 等作为 clickable 元素。但通过这样做,我们错过了许多内置浏览器的功能。
  • 慕岩炮轰抖音,百合网今何在?

    慕岩炮轰抖音,百合网今何在?

    来源:价值研究所 作者:Hernanderz“难道就因为自己的一个产品牛逼了,从客服到总裁,都不愿意正视自己产品和运营上的问题,选择逃避了吗?”这一番话,出自百合网联合创
  • 微博大门常打开,迎接海外画师漂洋东渡

    微博大门常打开,迎接海外画师漂洋东渡

    作者:互联网那些事“起猛了,我能看得懂日语了”。“为什么日本人说话我能听懂?”“中文不像中文,日语不像日语,但是我竟然看懂了”…&hell
  • OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

    OPPO、vivo、小米等国内厂商Q2在印度智能手机市场份额依旧高达55%

    7月20日消息,据外媒报道,研究机构的报告显示,在全球智能手机出货量同比仍在下滑的大背景下,印度这一有潜力的市场也未能幸免,出货量同比也有下滑,多家厂
Top
Baidu
map