当前位置:首页 > 元宇宙 > AI

单图就能解锁全景视角,北大 港中文 腾讯等推出 ViewCrafter 开源项目

来源: 责编: 时间:2024-09-19 16:21:51 13观看
导读 随便给张图就能从更多视角查看全景了?!话不多说,先看一波效果,单视角输入 be like:难度升级,接下来换成双视角,看起来衔接也非常丝滑。以上来自 ViewCrafter,由北大、港中文、腾讯等机构的研究人员提出,可以从单张或稀

随便给张图就能从更多视角查看全景了?!ODa28资讯网——每日最新资讯28at.com

话不多说,先看一波效果,单视角输入 be like:ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

难度升级,接下来换成双视角,看起来衔接也非常丝滑。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

以上来自 ViewCrafter,由北大、港中文、腾讯等机构的研究人员提出,可以从单张或稀疏输入图像生成精确相机可控的新视角视频。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

还支持场景级文生 3D、图生 3D、以及稀疏视角重建等应用。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

目前论文和代码均已开源,并提供了在线 Huggingface demo 供用户使用。ODa28资讯网——每日最新资讯28at.com

ViewCrafter:一种新视角生成方法

传统的新视角生成方法,如 NeRF 和 3D-GS 等技术,存在一个痛点:ODa28资讯网——每日最新资讯28at.com

依赖于密集的多视角训练数据ODa28资讯网——每日最新资讯28at.com

这限制了它们在仅有稀疏(输入图像数量有限,不能提供完整视角或详尽场景信息)甚至单张输入视角的情况下的应用。ODa28资讯网——每日最新资讯28at.com

同时,传统方法对训练资源的需求较高,且不具备泛化能力,这限制了它们在训练资源受限场景下的应用。ODa28资讯网——每日最新资讯28at.com

因此,ViewCrafter 最终想实现:ODa28资讯网——每日最新资讯28at.com

从稀疏视角图像甚至单张输入图像中生成任意规模场景的新视角。ODa28资讯网——每日最新资讯28at.com

这需要模型对 3D 物理世界有全面的理解。ODa28资讯网——每日最新资讯28at.com

接下来一起康康具体咋实现的。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

概括而言,ViewCrafter 是基于点云先验的可控视角视频生成。ODa28资讯网——每日最新资讯28at.com

首先,快速多视图 / 单视图 stereo 技术的发展,使得从单张或稀疏图像中快速重建点云表征成为可能。ODa28资讯网——每日最新资讯28at.com

点云表征能够提供 3D 场景的粗略信息,支持精确的相机位置控制以实现自由视角渲染。ODa28资讯网——每日最新资讯28at.com

然而,由于点云的表示能力较弱,加之极其稀疏的输入图像只能提供有限的 3D 线索,重建出的点云存在大面积的遮挡和缺失区域,并可能面临几何形变和点云噪声。ODa28资讯网——每日最新资讯28at.com

这些问题限制了其在新视角合成上的应用。ODa28资讯网——每日最新资讯28at.com

与此同时,在大规模视频数据集上训练的视频扩散模型能够深入理解 3D 物理世界,支持从单张图像或文本提示中生成符合物理规律和现实世界规则的视频内容。ODa28资讯网——每日最新资讯28at.com

然而,现有的视频扩散模型缺乏显式的场景 3D 信息,因此在视频生成过程中难以实现精确的相机视角控制。ODa28资讯网——每日最新资讯28at.com

针对这些优缺点,团队提出将视频扩散模型的生成能力与点云表征提供的显式 3D 先验相结合,以实现相机精准可控的任意场景高保真度新视角视频生成。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

具体而言,给定单张或稀疏视角输入图像,团队首先使用快速多视图 stereo 方法构建其点云表征,以实现精准地移动相机进行自由视角渲染。ODa28资讯网——每日最新资讯28at.com

随后,为了解决点云渲染结果中存在的大面积缺失区域、几何失真和点云伪影,团队训练了一个以点云渲染结果为控制信号的视频扩散模型作为增强渲染器。ODa28资讯网——每日最新资讯28at.com

这一渲染器能在粗糙的点云渲染结果的基础上进一步生成具有高保真度和 3D 一致性的新视角。ODa28资讯网——每日最新资讯28at.com

通过结合点云提供的显式 3D 信息以及视频扩散模型的强大生成能力,新方法能够在视频生成过程中实现 6 自由度的精准相机位姿控制,并生成高保真度、一致性强的新视角视频。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

▲相机轨迹规划算法

此外,现有的视频扩散模型难以生成长视频,因为长视频推理会造成巨大的计算开销。ODa28资讯网——每日最新资讯28at.com

为了解决这一问题,研究采用了一种迭代式的新视角生成策略,并提出了一种内容自适应的相机轨迹规划算法,以逐步扩展新视角覆盖的区域和重建的点云。ODa28资讯网——每日最新资讯28at.com

具体来说,从初始输入图像构建的点云开始,团队首先利用相机轨迹规划算法,从当前点云预测一段相机轨迹,以有效揭示遮挡和确实区域。ODa28资讯网——每日最新资讯28at.com

接着,团队根据预测的轨迹渲染点云,并利用 ViewCrafter 根据渲染的点云生成高质量的新视角。ODa28资讯网——每日最新资讯28at.com

随后利用生成的新视角更新点云,以扩展全局点云表征。ODa28资讯网——每日最新资讯28at.com

通过迭代执行这些步骤,最终可以获得覆盖大视场范围和扩展点云的高保真新视图,并支持高斯重建等下游任务。ODa28资讯网——每日最新资讯28at.com

具体应用上,基于 ViewCrafter 和提出的迭代式新视角生成算法,可以从单张图像 / 稀疏视角甚至一段文字描述中进行 3D 高斯重建,以支持实时渲染和沉浸式 3D 体验。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

对比实验

团队从多个角度对比了新方法。ODa28资讯网——每日最新资讯28at.com

从新视角生成来看,团队在 Tanks-and-Temples,CO3D,RealEstate10K 这三个真实世界数据集上与 SOTA 方法进行了定量和定性比较。ODa28资讯网——每日最新资讯28at.com

实验结果证明,ViewCrafter 在相机位姿控制的精准程度,以及生成新视角的视觉质量上都优于对比方法。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

在场景重建方面,团队在 Tanks-and-Temples 数据集上与稀疏视角重建领域的 SOTA 方法进行了定量和定性比较。ODa28资讯网——每日最新资讯28at.com

结果证明,ViewCrafter 在 3D 高斯重建渲染出的新视角的视觉质量上也超过了对比方法。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

文生 3D 结果如下。左边显示了文本提示以及文生图效果,后面是最终的 3D 效果。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

当然,团队也进行了消融实验。比如利用点云先验作为视频扩散模型控制信号的有效性。ODa28资讯网——每日最新资讯28at.com

具体而言,一些同期工作采用普吕克坐标作为视频生成模型的控制信号,以实现相机可控的新视角生成。ODa28资讯网——每日最新资讯28at.com

作为对比,为了验证点云控制信号的优越性,团队训练了一个以普吕克坐标为控制信号的新视角生成模型,并进行控制变量实验,保证除了控制信号外其他模型结构与 ViewCrafter 一致。ODa28资讯网——每日最新资讯28at.com

两个模型在新视角生成任务上对比结果如下所示:ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

实验结果证明,不管是在新视角生成质量还是在相机控制的精准程度上,团队使用的基于点云的控制信号都要优于基于普吕克坐标的控制信号。ODa28资讯网——每日最新资讯28at.com

另外,团队验证了模型对粗糙点云的鲁棒性(Robust,健壮性)。ODa28资讯网——每日最新资讯28at.com

如图所示,对于作为控制信号的点云具有严重几何形变的情况,模型依然能够有效地进行几何纠错和空洞修补。这证明了新方法对点云控制信号的鲁棒性。ODa28资讯网——每日最新资讯28at.com

ODa28资讯网——每日最新资讯28at.com

概括下来,团队验证了 ViewCrafter 对于静态场景的强大新视角生成能力。ODa28资讯网——每日最新资讯28at.com

接下来,团队计划探索和单目视频深度估计方法结合,实现单目动态视频的新视角生成和 4D 重建。更多细节欢迎查阅原论文。ODa28资讯网——每日最新资讯28at.com

GitHub:https://github.com/Drexubery/ViewCrafterODa28资讯网——每日最新资讯28at.com

项目主页:https://drexubery.github.io/ViewCrafter/ODa28资讯网——每日最新资讯28at.com

论文:https://arxiv.org/abs/2409.02048ODa28资讯网——每日最新资讯28at.com

Huggingface Demo:https://huggingface.co/spaces/Doubiiu/ViewCrafterODa28资讯网——每日最新资讯28at.com

本文来自微信公众号:量子位(ID:QbitAI),作者:ViewCrafter 团队,原标题《单图就能解锁全景视角!北大 / 港中文 / 腾讯等推出 ViewCrafter | 已开源》ODa28资讯网——每日最新资讯28at.com

本文链接://www.dmpip.com//www.dmpip.com/showinfo-45-7483-0.html单图就能解锁全景视角,北大 港中文 腾讯等推出 ViewCrafter 开源项目

声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。邮件:2376512515@qq.com

上一篇: 谷歌搜索将整合 C2PA 2.1 标准,标注 AI 生成 编辑图片

下一篇: 联想集团将在印度生产 AI 服务器,并设立 AI 研发实验室

标签:
  • 热门焦点
  • 新周期,谁在坚守窄门?

    新周期,谁在坚守窄门?

    来源:锦缎今日的投资者恐怕已经忘记了,在OpenAI创造出ChatGPT这一杀器的前夜,生成式AI也曾经是一道窄门,窄到连马斯克都差点失去了信心。在当时的舆论眼中,AGI的道路不够性感,不够
  • 抢先推出“元宇宙”饮料,可口可乐赢麻了

    抢先推出“元宇宙”饮料,可口可乐赢麻了

    试图傍上元宇宙的品牌千千万,但像可口可乐玩得这么花的,属实不多。01 可口可乐盯上元宇宙1886年,可口可乐诞生于美国乔治亚州亚特兰大市,至今已拥有136年的悠久历
  • 智能人机交互技术的春晚大考

    智能人机交互技术的春晚大考

    1月初的一个早晨,京东智能客户服务产品部紧急开会,进行关于尚未对外公布的“X项目”的初讨论。1月5日,这个神秘的X项目对外公布,京东成为央视2022年春晚独家互动合
  • 2022年的Web3:定义概念并开创新范式

    2022年的Web3:定义概念并开创新范式

    Web3 是关于加密和区块链应该如何使用的概念,因为它是加密圈的一个离散子领域。社区机会将呈指数级增长,扩大这些子行业的人口统计范围。追求 Web3 项目的组织仍
  • Kitten Coup社区反转Cool Kittens NFT骗局

    Kitten Coup社区反转Cool Kittens NFT骗局

    当狂热的加密爱好者将金钱投入到NFT图片时,浑水摸鱼的骗局随之而来,Cool Kittens NFT便是其中一个作恶者,该项目于去年11月在Sonala链上启动小猫形象的NFT铸造及
  • 2022年去中心化交易所会崛起吗?

    2022年去中心化交易所会崛起吗?

    “在某个时候,去中心化衍生品的交易量可能会超过去中心化现货交易所。”DEX 越来越多地转向第二层解决方案。“数字化金融市场的概念以及如何沿着以用户为中心
  • Interface正大光明的“跑路”,社区成员赞格局大

    Interface正大光明的“跑路”,社区成员赞格局大

    今日凌晨,一个广泛受社区期待的潜力蓝筹项目Interfaces突然发文宣布项目停止运营,后续也不会有铸造NFT系列的活动。这对社区来说就是一重磅炸弹,大多数人完全不明
  • HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    HTC Vive推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商

    今日热点:HTC Vive正式推出元宇宙平台Viverse;腾讯投资小米生态链AR眼镜厂商北京蜂巢科技;面部追踪和眼动追踪是Quest下一版本的“重点”;索尼PSVR 2将推迟至2023
  • 我们离元宇宙的实现只差一副眼镜?

    我们离元宇宙的实现只差一副眼镜?

    近日的苹果春季新品发布会,想必许多人都守在了屏幕前,就为等待传说中的首款AR Glass。在发布会之前,苹果全球营销主管Greg Joswiak曾在Twitter上分享了一段短视频
Top
Baidu
map