当前位置:首页 > 元宇宙 > AI

Stable Diffusion 3 开源倒计时,2B 单机可跑碾压闭源 Midjourney

来源: 责编: 时间:2024-06-17 17:34:22 88观看
导读 【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离 2 月 SD3 的横空出世,已经过去了 4 个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的 MMDiT 全新架构,将彻底改变 AI 生图的

【新智元导读】重磅消息!Stable Diffusion 3,大概率会在明天开源。距离 2 月 SD3 的横空出世,已经过去了 4 个月。如果此事为真,生图圈子第一个出现开源碾压闭源的奇景!强大的 MMDiT 全新架构,将彻底改变 AI 生图的格局。现在,全体 AI 社区都在翘首以盼。xzk28资讯网——每日最新资讯28at.com

万众瞩目的 Stable Diffusion 3,终于要正式开源了!xzk28资讯网——每日最新资讯28at.com

几天前,在 Computex 2024 大会上,Stability AI 联合首席执行官 Christian Laforte 正式官宣:SD 3 Medium 将在 6 月 12 日公开发布。xzk28资讯网——每日最新资讯28at.com

据悉,之后还会开源 4B 和 8B 的版本。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

消息一出,网友们就激动地奔走相告。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

种种迹象表明,SD3 明天的开源应该是铁板钉钉了。xzk28资讯网——每日最新资讯28at.com

目前,ComfyUI 已经提交了对 SD3 支持的版本。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

网友表示,如果此事是真的,那可就太疯狂了,生图圈子将成第一个开源碾压闭源的赛道!xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

这边 AI 生图王者 Midjourney 刚刚放出功能更新,网友们就在评论区纷纷留言:SD3 一旦开源,你们就完蛋了。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

网友们纷纷搬好板凳,坐等 SD3 的权重发布了。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

欠债 1 亿的独角兽,仍坚持做开源英雄?

两个月前,Stable Diffusion 3 一横空出世,立刻在人类偏好评估中斩下 DALL-E 3 和 Midjourney v6,一举成为该领域的 SOTA。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

因为攻克了 AI 图像生成领域著名的「正确性」测试,SD3 一时名声大噪,引发了极大热度。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

虽然放出的模型效果惊艳全网,但选择开源也让公司的收入入不敷出。随后就是满身黑历史的 CEO 跑路、人才出走等负面事件,让 Stability AI 这头独角兽的前途风雨飘摇,一度陷入欠下 1 亿美元的「卖身」传闻。xzk28资讯网——每日最新资讯28at.com

在鼎盛时期的 Stability AI 收到过不少橄榄枝,却断然拒绝收购。然而亏损超 3000 万美元、拖欠 1 亿美元账单的事实,揭示了所有开源公司共同的困境 ——xzk28资讯网——每日最新资讯28at.com

如果选择将代码、权重和产品 API 免费开放,即便保留部分高级功能,也很难吸引到付费用户。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

如果在这种情况下,SD3 依然坚持开源,叫 Stability AI 一声「开源英雄」绝不为过。xzk28资讯网——每日最新资讯28at.com

强大的架构、更好的明暗对比度、提示遵循、训练结果、模型合并、图像分辨率……SD3 的开源给我们带来的贡献可太多了!xzk28资讯网——每日最新资讯28at.com

现在,所有人都在翘首以盼。xzk28资讯网——每日最新资讯28at.com

将对开源社区影响重大

Stable Diffusion3 的开源,为何意义如此重大?xzk28资讯网——每日最新资讯28at.com

在 reddit 的 StableDiffusion 社区,一位网友给出了以下总结,让我们从非技术视角,理解 SD3 的重要性,以及对 AI 社区的重大影响。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

作者表示,自己希望能让外行人都明白,为何 Stable Diffusion 3 如此重要。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

曾经 Stable Diffusion 的开源,就改变了游戏规则xzk28资讯网——每日最新资讯28at.com

VAE 是无名英雄

VAE(变分自编码器)非常特别,因为它让提供了 16 个通道的特征和颜色数据供我们使用,而之前的模型只有 4 个通道。xzk28资讯网——每日最新资讯28at.com

下面的四张图显示出,这将产生多大的影响。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

Emu 论文地址:https://arxiv.org/pdf/2309.15807xzk28资讯网——每日最新资讯28at.com

这也就意味着,模型在训练时会捕获更多细节。xzk28资讯网——每日最新资讯28at.com

不仅模型的质量会更好,而且实际上会带来更快的训练速度,从而使主要的 MMDiT 模型(也就是实现生成的主要模型)能够更好地捕捉细节。xzk28资讯网——每日最新资讯28at.com

感兴趣的读者可以阅读下面这篇技术性解读:xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

文章地址:https://huggingface.co/blog/TimothyAlexisVass/explaining-the-sdxl-latent-space#the-8-bit-pixel-space-has-3-channelsxzk28资讯网——每日最新资讯28at.com

与旧的模型相比,新的 16 通道 VAE 在 512x512 分辨率下的表现,可以说令人难以置信 —— 即使在较小的图像尺寸下,通道维度上的特征数量也足以捕捉到很好的细节。xzk28资讯网——每日最新资讯28at.com

为了更好地说明这一点,我们可以用视频领域的标准来做个类比 ——xzk28资讯网——每日最新资讯28at.com

VHS 和 DVD 都是标准定义的 480i / 480p,但 DVD 显然捕捉到了更多细节,甚至在硬件和软件的升频器上表现也很好。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

或者,可以用复古游戏玩家的说法来类比 ——xzk28资讯网——每日最新资讯28at.com

复合视频线(Composite cables) -> SD1.X 的 VAExzk28资讯网——每日最新资讯28at.com

S-Video 线 -> SDXL 的 VAExzk28资讯网——每日最新资讯28at.com

组件视频线(Component cables) -> SD3 的 VAExzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

因此,将 VAE 应用到如今我们的 AI 工作流程中,一切都将变得更加高效。xzk28资讯网——每日最新资讯28at.com

在视频生成方面,则可以在低分辨率下训练以适应虚拟内存(VRAM),然后通过分辨率增强流程来保留细节。xzk28资讯网——每日最新资讯28at.com

我们不需要训练 / 微调文本编码器了

众所周知,训练文本编码器可以提升基于 SD1.X 模型和 SDXL 模型的性能。xzk28资讯网——每日最新资讯28at.com

然而在这位网友看来,从长远来看,这其实是低效的,因为在实际应用中存在大量的微调和模型合并。xzk28资讯网——每日最新资讯28at.com

这会在推理过程中导致大量的重新加权,从而引起混乱,使得在创作过程中捕捉细节变得更加困难。xzk28资讯网——每日最新资讯28at.com

虽然在小规模应用中可以这样做,但随着社区的扩大,训练文本编码器就变得极其繁琐了。xzk28资讯网——每日最新资讯28at.com

从技术角度来看,CLIP 模型本身就很难训练和微调,因此如果尝试同时处理三个模型,可能会面临一场艰难的苦斗。xzk28资讯网——每日最新资讯28at.com

而现在,我们或许根本不需要微调文本编码器了!xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

第一个原因是,VAE 相比旧模型,捕捉了更多的细节。xzk28资讯网——每日最新资讯28at.com

第二个原因则是,无论我们使用哪种变体,SD3 都经过了适当且鲁棒的 caption 训练,以捕捉大多数人认为重要的所有细节。xzk28资讯网——每日最新资讯28at.com

在 SD3 中,可以让新的架构和 VAE 为我们捕捉这些细节,这样我们就可以更好地利用多个 LoRA 模型,实现更鲁棒的生成。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

加速新的 AI 研究

目前,生成式 AI 社区和 LLM 社区之间还缺乏一定的协作。xzk28资讯网——每日最新资讯28at.com

在这位网友看来,随着 MMDiT 架构更好地与 LLM 社区对齐,会有更多的开发者进入生成式 AI 社区,带来大量丰富的研究和方法。xzk28资讯网——每日最新资讯28at.com

这将造成的影响,或许是十分重大的。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

此前,LLM 社区就创建了很多应用于生成式 AI 的伟大方法(比如 LoRA 就是从文本建模中派生出来的),然而,由于架构之间缺乏互操作性操作性(当前 SD 使用的是 UNet,SD3 使用的是 Transformer 块),会让许多人望而却步。xzk28资讯网——每日最新资讯28at.com

如果两个领域的开发者和研究者开始合作,扩展许多跨领域的多模态功能,比如文本、图像、音频、视频等,比如会创造出许多独属于开源社区的非常棒的体验。xzk28资讯网——每日最新资讯28at.com

旧方法更加完善

自从 Stable Diffusion 诞生以来,我们可以在眨眼间生成图像、视频、音频,甚至 3D 模型。xzk28资讯网——每日最新资讯28at.com

如今在谷歌 Scholar 上,关于 Stable Diffusion 的论文已经有 7500 多篇了。xzk28资讯网——每日最新资讯28at.com

微调方法、ControlNet、适配器、分段方法等理论,在 SD 上应该会比从前的架构表现得更好。xzk28资讯网——每日最新资讯28at.com

而且因为架构简单,模型会变得更易访问和使用。xzk28资讯网——每日最新资讯28at.com

事实上,由于 SD3 的强大图像-文本对齐和 VAE,有些方法可能我们再也不需要了。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

比如在音频扩散、视频扩散和 3D 扩散模型领域,就可以在新架构上用这些方法训练,进一步提高模型的质量和鲁棒性。xzk28资讯网——每日最新资讯28at.com

显然,ControlNets 和适配器会变得更好,因为 SD3 实际上是使用多模态架构构建的。xzk28资讯网——每日最新资讯28at.com

这也就意味着,SD3 在不同模态之间,会有更好的关系理解。xzk28资讯网——每日最新资讯28at.com

如今我们在构建新方法时,就可以在同一空间内利用这些模态,再结合上更好的文本理解和强大的 VAE,SD3 的前途简直不可限量!xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

CEO「跑路」,开源成谜

赶在 2 月份的时候,Stable Diffusion 迭代到了第 3 个版本。xzk28资讯网——每日最新资讯28at.com

然而仅一个月的时间,背后核心团队却被曝出集体离职。xzk28资讯网——每日最新资讯28at.com

更让人意想不到的是,身为 CEO 的 Emad 也紧跟辞职,退出了董事会。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

显然,SD3 随后的开源,也变得迷雾重重。xzk28资讯网——每日最新资讯28at.com

当时,外界的猜测是,Stability AI 的动荡是 Emad 一手酿成的。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

彭博对 20 位现任前任员工、投资者等采访了解到,Emad 在治理公司方面缺乏经验,组织结构混乱。xzk28资讯网——每日最新资讯28at.com

更有甚者,公司还习惯性地拖欠工资和税款。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

Emad 近日又成立了一家初创公司 Schelling AI,专注去中心化 AI 系统xzk28资讯网——每日最新资讯28at.com

其实,在 23 年底,公司内部不稳定的现象已经出现了苗头。xzk28资讯网——每日最新资讯28at.com

作为联创之一的 Cyrus Hodes 便起诉 Emad 是个「骗子」。xzk28资讯网——每日最新资讯28at.com

他指控,在公司进行重大融资几个月前,Emad 曾诱骗自己以 100 美元价格出售 15% 股份。xzk28资讯网——每日最新资讯28at.com

其实,Stability AI 创立之后,便以模型「开源」深受社区关注和好评。xzk28资讯网——每日最新资讯28at.com

它先后发布了多款模型「全家桶」,包括语言模型 Stable LM、视频模型 Stable Video Diffusiion、音频模型 Stable Audio。xzk28资讯网——每日最新资讯28at.com

而比起具有里程碑意义的 Stable Diffusion,一代和二代模型系列在开源社区有 300-400 万下载量。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

在开源背后,需要的是 Stability AI 不断开启「烧钱」模式。xzk28资讯网——每日最新资讯28at.com

但显然,这种入不敷出的方式,根本无法支撑这家公司持续性发展。xzk28资讯网——每日最新资讯28at.com

前段时间,Information 爆料称,Stability AI 第一季度的营收不足 500 万美元。而且,公司亏损超过了 3000 万美元,还对外拖欠了近 1 亿美元的巨额账单。xzk28资讯网——每日最新资讯28at.com

更有传闻称,Stability AI 正寻求卖身。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

而在 SD3 发布之后,官方宣布称在对齐之后正式开源,结果等了 3 个多月,依然只是 API 的开放。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

有 Reddit 网友在线发起了提问,为 Stability AI 寻求赚钱出路,以保证 SD3 能够顺利放出。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

20 亿参数版本先上线

好在,ComputeX 大会上,终于等到了 SD3 的官宣开源。xzk28资讯网——每日最新资讯28at.com

一些网友纷纷收到了 Stability AI 邮件,即将开源的 SD3 Medium 是一个 20 亿参数的模型。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

不过,有人对此质疑道,「Stability AI 愚弄了所有的人,他们开源的是一个名为『SD3 Medium』的模型,其实内部还有 Large 和 X-Large 版本还未发布,这才是人们期待的真正的 SD3」。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

关于更大版本的开源,Stability AI 自家员工表示,40 亿、80 亿参数的版本未来都将会陆续上线。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

Stable Diffusion 3 技术回顾

SD3 的诞生已经在图像质量、多个对象、拼写能力方面,都得到了显著提升,让 AI 生图再创新里程碑。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

发布当天,前 CEO Emad 承诺道,SD3 未来将会开源,目前还在测试阶段。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

甚至,它还涌现出了对物理世界的理解。xzk28资讯网——每日最新资讯28at.com

紧接着 3 月,Stability AI 公布了新模型最详实的技术报告。xzk28资讯网——每日最新资讯28at.com

论文中,首次介绍了 Stable Diffusion 3 背后核心技术 —— 改进版的 Diffusion 模型和一个基于 DiT 的文生图全新架构!xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/ Stable+Diffusion+3+Paper.pdfxzk28资讯网——每日最新资讯28at.com

与之前的版本对比,SD3 明显在图像质量生成上,实现了很大的改进,不仅支持多主题提示。xzk28资讯网——每日最新资讯28at.com

最重要的是,文字拼写的效果也变好了。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

这一切竟是因为,其背后框架的改进和创新。xzk28资讯网——每日最新资讯28at.com

它用上了与 Sora 同样的 DiT 架构,灵感来源于纽约大学助理教授谢赛宁的研究。xzk28资讯网——每日最新资讯28at.com

而在以前的 Stable Diffusion 版本中,并未采用 Transformer 技术。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

在文生图的任务中,SD3 需要同时考虑文本 + 图像两种模态。xzk28资讯网——每日最新资讯28at.com

因此,研究者提出了一种全新的架构,称为 ——MMDiT(多模态 Diffusion Transformer),专为处理这种多模态的能力。xzk28资讯网——每日最新资讯28at.com

具体而言,模型采用了三种不同的文本嵌入模型 —— 两个 CLIP 模型和一个 T5 ,来处理文本信息。xzk28资讯网——每日最新资讯28at.com

与此同时,还采用了一个自编码模型来编码图像 token。xzk28资讯网——每日最新资讯28at.com

因为文本和图像嵌入在概念上有很大不同,下图右中可以看出,研究者对两种模态使用了两种不同的权重。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

基于这种独特的架构,使得图像和文本信息之间可以相互流动和交互,从而在生成的结果中提高对内容的整体理解和视觉表现。xzk28资讯网——每日最新资讯28at.com

而且,这种架构未来还可以轻松扩展到其他包括视频在内的多种模态。xzk28资讯网——每日最新资讯28at.com

实验评估中,SD3 在人类偏好评估中超越了 DALL-E 3 和 Midjourney v6,成为该领域的 SOTA 模型。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

而且,SD3 是一个模型系列,提供了 8 亿到 80 亿参数版本,意味着可以在终端设备可跑,大大降低了 AI 应用的门槛。xzk28资讯网——每日最新资讯28at.com

网友们对此激动不已,纷纷催更他们快速上线。xzk28资讯网——每日最新资讯28at.com

SD3 开源倒计时开启,接下来坐等上手了。xzk28资讯网——每日最新资讯28at.com

xzk28资讯网——每日最新资讯28at.com

参考资料:xzk28资讯网——每日最新资讯28at.com

https://x.com/op7418/status/1800455685068771643xzk28资讯网——每日最新资讯28at.com

https://x.com/StabilityAI/status/1797462536117444794xzk28资讯网——每日最新资讯28at.com

https://www.reddit.com/r/StableDiffusion/comments/1d6t0gc/sd3_release_on_june_12/xzk28资讯网——每日最新资讯28at.com

https://www.reddit.com/r/StableDiffusion/comments/1dcuval/comment/l80v9an/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_buttonxzk28资讯网——每日最新资讯28at.com

本文来自微信公众号:新智元 (ID:AI_era)xzk28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-4632-0.htmlStable Diffusion 3 开源倒计时,2B 单机可跑碾压闭源 Midjourney

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 字节跳动火山方舟大模型平台向个人开发者开放,提供 50 万 tokens 免费推理额度

下一篇: 振兴乡村发展 助力青少年教育 中国三星连续十一年蝉联企业社会责任榜外企第一

标签:
  • 热门焦点
  • 这场虚拟人争夺战,互联网巨头下场先赢一半?

    这场虚拟人争夺战,互联网巨头下场先赢一半?

    撰文/ 孟会缘 近两年间,要论引得无数互联网巨头竞折腰的一大热门产业,莫过于元宇宙领域中的数字人了。 作为继数字藏品之后,开发元宇宙的又一重点落地项目,互联网
  • 【申万宏源】必然的碎片化AI落地,哪种路径可能胜出? | 元宇宙Meta洞见

    【申万宏源】必然的碎片化AI落地,哪种路径可能胜出? | 元宇宙Meta洞见

    大规模预训GPT(Generative PreTraining)是OpenAI在2018年提出的模型,大规模预训练模型(大模型)渐渐成为了AI算法领域的热点。AI产业链:从算力到应用工作流程视角•
  • 游戏玩家才是最“元宇宙”的

    游戏玩家才是最“元宇宙”的

    01元宇宙的概念,最早由科幻作家尼尔·斯蒂芬森于1992年在其著作《雪崩》中提出。它指的是一个脱胎于现实世界,又与现实世界平行、相互影响,并且始终在线的虚拟世
  • 传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    传腾讯已推出全新XR业务;摩托罗拉正打造5GXR颈戴式计算组件

    今日热点:传腾讯已推出全新XR业务;摩托罗拉与Verizon合作打造5G XR颈戴式计算组件;小米AR购物导航专利获授权;VR一体机Simula One放弃众筹并开放直接预订;VR游戏《
  • 冰墩墩还能火多久?

    冰墩墩还能火多久?

    作者:田巧云题图源自北京2022年冬奥会官方微博如果要问2022年的开年明星是谁,冰墩墩当仁不让。几乎所有人都被那个抖雪的动作实力圈粉。在社交媒体的助推,以及日
  • 高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    高通成立欧洲XR实验室;ICICB计划进军元宇宙......

    扩展现实(XR)通过计算机将真实与虚拟相结合,打造了一个可人机交互的虚拟环境,将AR、VR、MR多种技术相融合,为体验者带来了虚拟世界与现实世界之间无缝转换的“沉浸
  • 从冰墩墩到无聊猿,解秘未来IP爆款的模因

    从冰墩墩到无聊猿,解秘未来IP爆款的模因

    打造IP,是建设元宇宙的刚需。NFT能直接让IP的价值变现;虚拟人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一个个品牌IP星球,考验的是IP世界观的建设能力。如果说在
  • 吸金31亿美元,谁在催火2021年的链游?

    吸金31亿美元,谁在催火2021年的链游?

    2021年究竟发生了什么,才使得链游领域在这年一飞冲天?作者:廖羽2022年2月16日,Invest Game发布《2021年全球游戏投资报告》,报告显示,游戏行业的投资重点正在向区块
  • NFT:新骗局的狩猎场

    NFT:新骗局的狩猎场

    骗局的自动化需要更好的防御,从数字身份开始。前几天我在OpenSea上购买了一个NFT,是才华横溢的艺术家海伦·福尔摩斯 (Helen Holmes) 的漫画,来自她的 "原作 "收
Top
Baidu
map