当前位置:首页 > 科技  > 知识百科

谷歌夺回AI画语权,网友:DALL·E 2诞生一个月就过时了?

来源: 责编: 时间:2023-08-07 16:30:19 144观看
导读 本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。u5l28资讯网——每日最新资讯28at.com

在让AI搞创作这件事上,谷歌和OpenAI正面刚起来了。u5l28资讯网——每日最新资讯28at.com

这不,震惊全网的DALL·E 2才新鲜出炉一个月,谷歌就派出名为Imagen的选手来打擂台。u5l28资讯网——每日最新资讯28at.com

 u5l28资讯网——每日最新资讯28at.com

直接上图对比,左边是谷歌Imagen选手眼中的“猫猫绊倒人类雕像”,右边则是DALL·E 2选手的同题创作。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

你觉得哪一位选手的作品更符合题意?u5l28资讯网——每日最新资讯28at.com

而让网友们直呼“DALL·E 2这就过时了?”的,还不只是这种正面PK的刺激。u5l28资讯网——每日最新资讯28at.com

看到这么一张照片,如果不说是AI生成的,是不是要先感叹一句两脚兽的摆拍技术越来越高超了?u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

输入“折纸作品:一只狐狸和一只独角兽在飘雪的森林里”,Imagen创作出的画面则是酱婶的:u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

还可以试试把文字写得长一点。u5l28资讯网——每日最新资讯28at.com

比如《一只非常快乐的毛茸熊猫打扮成了在厨房里做面团的厨师的高对比度画像,他身后的墙上还有一幅画了鲜花的画》…(啊先让我喘口气)u5l28资讯网——每日最新资讯28at.com

Imagen也轻松拿下,要素齐全:u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

看到这,机器学习圈的网友反应是这样的:u5l28资讯网——每日最新资讯28at.com

不是吧,这才一个月就又更新换代了?u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

求求别再震惊我了。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

这事儿热度一起,很快就破了圈。u5l28资讯网——每日最新资讯28at.com

吃瓜群众们立刻就想到一块去了。u5l28资讯网——每日最新资讯28at.com

以后可能没图库网站什么事儿了。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

那么这个来自谷歌的新AI,又掌握了什么独家秘技?u5l28资讯网——每日最新资讯28at.com

具体详情,我们一起接着往下看。u5l28资讯网——每日最新资讯28at.com

增强「理解」比优化「生成」更重要u5l28资讯网——每日最新资讯28at.com

文本到图像生成我们之前介绍过不少,基本都是一个套路:u5l28资讯网——每日最新资讯28at.com

CLIP负责从文本特征映射到图像特征,然后指导一个GAN或扩散模型生成图像。u5l28资讯网——每日最新资讯28at.com

但谷歌Imagen这次有个颠覆性的改变——u5l28资讯网——每日最新资讯28at.com

使用纯语言模型只负责编码文本特征,把文本到图像转换的工作丢给了图像生成模型。u5l28资讯网——每日最新资讯28at.com

语言模型部分使用的是谷歌自家的T5-XXL,训练好后冻结住文本编码器。u5l28资讯网——每日最新资讯28at.com

图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

这样做最大的好处,是纯文本训练数据要比高质量图文对数据容易获取的多。u5l28资讯网——每日最新资讯28at.com

T5-XXL的C4训练集包含800GB的纯文本语料,在文本理解能力上会比用有限图文对训练的CLIP要强。u5l28资讯网——每日最新资讯28at.com

这一点也有着实验数据做支撑,人类评估上,T5-XXL在保真度和语义对齐方面表现都比CLIP要好。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

在实验中谷歌还发现,扩大语言模型的规模对最后效果影响更大,超过扩大图像生成模型的影响。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

看到这有网友指出,谷歌最后采用的T5-XXL参数规模还不到最新PaLM语言模型5400亿参数的1%,如果用上PaLM,又会是啥样?u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

除了语言模型部分的发现,谷歌通过Imagen的研究对扩算模型作出不少优化。u5l28资讯网——每日最新资讯28at.com

首先,增加无分类器引导(classifier-free guidance)的权重可以改善图文对齐,但会损害图像保真度。u5l28资讯网——每日最新资讯28at.com

解决的办法是每一步采样时使用动态阈值,能够防止过饱和。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

第二,使用高引导权重的同时在低分辨率图像上增加噪声,可以改善扩散模型多样性不足的问题。u5l28资讯网——每日最新资讯28at.com

第三,对扩散模型的经典结构U-Net做了改进,新的Efficient U-Net改善了内存使用效率、收敛速度和推理时间。u5l28资讯网——每日最新资讯28at.com

对语言理解和图像生成都做出改进之后,Imagen模型作为一个整体在评估中也取得了很好的成绩。u5l28资讯网——每日最新资讯28at.com

比如在COCO基准测试上达到新SOTA,却根本没用COCO数据集训练。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

在COCO测试的人类评估部分也发现了Imagen的一个缺点,不擅长生成人类图像。u5l28资讯网——每日最新资讯28at.com

具体表现是,无人类图像在写实度上获得更高的人类偏好度。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

同时,谷歌推出了比COCO更有挑战性的测试基准DrawBench,包含各种刁钻的提示词。u5l28资讯网——每日最新资讯28at.com

实验发现,DALL·E 2难以准确理解同时出现两个颜色要求的情况,而Imagen就没问题。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

反常识情况,比如“马骑着宇航员”两者表现都不佳,只能画出“宇航员骑着马”。u5l28资讯网——每日最新资讯28at.com

但是Imagen对“一只熊猫在做咖啡拉花”理解更准确,只错了一次。DALL·E 2则全都把熊猫画进了拉花图案里。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

△大概“马骑着宇航员”有点反常识(狗头)u5l28资讯网——每日最新资讯28at.com

对于要求图像中出现文字的,也是Imagen做得更好。u5l28资讯网——每日最新资讯28at.com

除了最基本的把文字写对以外,还可以正确给文字加上烟花效果。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

AI画画越来越出圈u5l28资讯网——每日最新资讯28at.com

说起来,AI作画这件事,最早便源起于谷歌。u5l28资讯网——每日最新资讯28at.com

2015年,谷歌推出DeepDream,开创了AI根据文本生成图像的先河。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

△DeepDream作品u5l28资讯网——每日最新资讯28at.com

但要说相关技术真正开“卷”、出圈,标志性事件还得数2021年OpenAI的DALL·E横空出世。u5l28资讯网——每日最新资讯28at.com

当时,吴恩达、Keras之父等一众大佬都纷纷转发、点赞,DALL·E甚至被称为2021年第一个令人兴奋的AI技术突破。u5l28资讯网——每日最新资讯28at.com

随后,语言理解模型和图像生成模型多年来的技术进展,便在“AI作画”这件事上集中爆发,一系列CLIP+GAN、CLIP+扩散模型的研究和应用,频频在网络上掀起热潮。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

从此一发不可收拾,技术更新迭代越来越快。u5l28资讯网——每日最新资讯28at.com

DALL·E 2刚发布的时候就有网友发起一个投票,问多长时间会出现新的SOTA。u5l28资讯网——每日最新资讯28at.com

当时大多数人选了几个月或1年以上。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

但现在,Imagen的出现只用了6周。u5l28资讯网——每日最新资讯28at.com

随着AI画画效果越来越强大,受众范围也不断扩大,突破技术圈进入大众视野。u5l28资讯网——每日最新资讯28at.com

前一阵,就有AI画画应用登上苹果App Store图形与设计排行榜榜首。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

现在最新的潮流,是各路设计师排队申请Midjourney、Tiamat等商业化产品的内测,刷爆社交网络。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

如此出圈,也给OpenAI和谷歌这样的大公司带来很大压力。u5l28资讯网——每日最新资讯28at.com

出于AI伦理、公平性等方面考虑,DALL·E 2和Imagen都没有直接开源或开放API。u5l28资讯网——每日最新资讯28at.com

各自也都在论文里有大篇幅涉及风险、社会影响力的内容。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

OpenAI选择了内测模式,而谷歌还在做进一步研究和规范,等到确保AI不被滥用之后再择机公开。u5l28资讯网——每日最新资讯28at.com

现在想体验Imagen的话,有一个在线Demo演示。u5l28资讯网——每日最新资讯28at.com

可以从给定的几个提示词中自由组合出不同场景。u5l28资讯网——每日最新资讯28at.com

u5l28资讯网——每日最新资讯28at.com

快来试试吧~u5l28资讯网——每日最新资讯28at.com

Demo地址:u5l28资讯网——每日最新资讯28at.com
https://gweb-research-imagen.appspot.comu5l28资讯网——每日最新资讯28at.com

论文地址:u5l28资讯网——每日最新资讯28at.com
https://gweb-research-imagen.appspot.com/paper.pdfu5l28资讯网——每日最新资讯28at.com

 u5l28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-119-2346-0.html谷歌夺回AI画语权,网友:DALL·E 2诞生一个月就过时了?

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 消息称博通与云计算公司VMware洽谈收购事宜 后者市值约400亿美元

下一篇: DeepMind开源了MuJoCo!Meta竟用来让「骷髅手」盘核桃

标签:
  • 热门焦点
  • 一加Ace2 Pro官宣:普及16G内存 引领24G

    一加Ace2 Pro官宣:普及16G内存 引领24G

    一加官方今天继续为本月发布的新机一加Ace2 Pro带来预热,公布了内存方面的信息。“淘汰 8GB ,12GB 起步,16GB 普及,24GB 引领,还有呢?#一加Ace2Pro#,2023 年 8 月,敬请期待。”同时
  • 影音体验是真的强 简单聊聊iQOO Pad

    影音体验是真的强 简单聊聊iQOO Pad

    大公司的好处就是产品线丰富,非常细分化的东西也能给你做出来,例如早先我们看到了新的vivo Pad2,之后我们又在iQOO Neo8 Pro的发布会上看到了iQOO的首款平板产品iQOO Pad。虽
  • Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    Redmi Buds 4开箱简评:才199还有降噪 可以无脑入

    在上个月举办的Redmi Note11T Pro系列新机发布会上,除了两款手机新品之外,Redmi还带来了两款TWS真无线蓝牙耳机产品,Redmi Buds 4和Redmi Buds 4 Pro,此前我们在Redmi Note11T
  • 2023 年的 Node.js 生态系统

    2023 年的 Node.js 生态系统

    随着技术的不断演进和创新,Node.js 在 2023 年达到了一个新的高度。Node.js 拥有一个庞大的生态系统,可以帮助开发人员更快地实现复杂的应用。本文就来看看 Node.js 最新的生
  • 自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中的力量:简化软件开发和交付

    自动化在DevOps中扮演着重要角色,它提升了DevOps的效能。通过自动化工具和方法,DevOps团队可以实现以下目标:消除手动和重复性任务。简化流程。在整个软件开发生命周期中实现更
  • 腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    腾讯VS网易,最卷游戏暑期档,谁能笑到最后?

    作者:无锈钵来源:财经无忌7月16日晚,上海1862时尚艺术中心。伴随着幻象的精准命中,硕大的荧幕之上,比分被定格在了14:12,被寄予厚望的EDG战队以绝对的优势战胜了BLG战队,拿下了总决
  • 苹果公司要求三星和LG Display生产「无边框」OLED iPhone显示屏

    苹果公司要求三星和LG Display生产「无边框」OLED iPhone显示屏

    据 The Elec 报道,苹果已要求其供应商为未来的 iPhone 型号开发「无边框」OLED 显示面板。苹果显然已要求三星和 LG Display 开发新的 OLED 显示面
  •  首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

    首发天玑9200+ iQOO Neo8系列发布首销售价2299元起

    2023年5月23日晚,iQOO Neo8系列正式发布。其中,Neo系列首款Pro之作——iQOO Neo8 Pro强悍登场,限时售价3099元起;价位段最强性能手机iQOO Neo8同期上市
  • 2022爆款:ROG魔霸6 冰川散热系统持续护航

    2022爆款:ROG魔霸6 冰川散热系统持续护航

    喜逢开学季,各大商家开始推出自己的新产品,进行打折促销活动。对于忠实的端游爱好者来说,能够拥有一款梦寐以求的笔记本电脑是一件十分开心的事。但是现在的
Top
Baidu
map