God's Prompt
Paper Read
Git Clone
Podcast Daily
🗿CLAY:可控大规模高精细3D资产生成模型
type
status
slug
summary
tags
category
icon
password
Date
CLAY: A Controllable Large-scale Generative Model for Creating High-quality 3D Assets
介绍网站:https://sites.google.com/view/clay-3dlmGitHub项目:https://github.com/CLAY-3D/OpenCLAY论文地址:https://arxiv.org/abs/2406.13897
CLAY 是一个可控大规模3D资产生成模型,由上海科技大学、影眸科技和华中科大的研究人员联合开发,刚刚获得SIGGRAPH 2024最佳论文提名。它专门设计用于将人类的想象力转化为精细的3D数字结构,极大地降低了传统3D创作过程中对专业技术和大量劳动的需求。
CLAY 能够生成具有1.5亿参数的3D原生几何结构,并通过物理基础的渲染(PBR)纹理生成技术,创造出具有漫反射、粗糙度和金属度的2K分辨率纹理。这使得CLAY不仅能够生成几何网格,还能生成可直接部署到现有3D资产生产线的材质属性。此外,CLAY还支持丰富的可控适应和创作方式,允许用户根据经典文本或图像提示以及3D感知控制,从概念设计到生产就绪资产,实现多样化的3D资产创造。
CLAY 的优势是其用户友好性,即便是初次使用者也能轻松上手,将生动的3D想象变为现实。CLAY通过精心设计的训练流程和数据处理管道,确保了训练样本的质量,从而提高了3D生成的精细度和真实感。这些特性使得CLAY在3D资产生成领域具有突破性的意义,为数字创造力的发展开辟了新的可能性。
技术解读
CLAY支持文本或图像输入,并能够通过多种3D原语(如多视图图像、体素、边界框、点云等)进行3D感知控制。其核心技术包括多分辨率变分自编码器(VAE)和潜在扩散变换器(DiT),这些技术能够从多样的3D几何形状中提取丰富的3D先验知识。
CLAY 的生成过程主要步骤如下:
- 输入接受:CLAY可以接受多种类型的输入,包括文本描述、图像、多视图图像、体素、边界框、点云和隐式表示等。这些输入为生成过程提供了上下文和条件。
- 预处理:输入的数据会经过预处理,以适应CLAY的模型架构。例如,如果输入是文本,CLAY会使用CLIP模型进行编码;如果是图像,则可能使用DINOv2等预训练模型提取特征。
- 几何生成:CLAY的核心是一个大规模的3D生成模型,它通过多分辨率变分自编码器(VAE)和潜在扩散变换器(DiT)来生成3D几何结构。VAE用于将输入编码到潜在空间,而DiT则用于在潜在空间中进行几何生成。
- 多分辨率编码:CLAY采用多分辨率编码策略,首先在较低分辨率下捕捉大致形状,然后逐步细化到更高分辨率,以增强模型处理大规模数据的能力并确保细节的精确性。
- 纹理和材质生成:CLAY不仅生成3D几何结构,还生成物理基础的渲染(PBR)纹理,包括漫反射、粗糙度和金属度。这些纹理通过多视图材质扩散模型生成,并映射到3D几何的UV空间。
- 渐进式训练:CLAY的训练采用渐进式方案,从较短的潜在代码开始,逐步增加潜在代码的长度和模型参数,同时调整学习率,以实现稳健和高效的训练。
- 数据标准化:为了确保训练数据的质量,CLAY使用重构流程来统一不同来源的3D数据,包括使用GPT-4V进行自动注释,以增强模型对几何特征的理解。
- 资产增强:生成的3D资产会经过后处理,如网格四边形化和UV展开,以提高其在数字环境中的可用性和视觉效果。
- 输出:最终,CLAY输出的是具有高细节和真实感的3D资产,这些资产可以直接用于游戏、电影、虚拟现实模拟等应用。
CLAY 的整个处理和生成过程是高度自动化的,旨在简化3D资产的创作流程,使其更加易于访问,同时保持了生成结果的高质量标准。
论文解读
本文介绍了一个名为CLAY的可控大规模3D资产生成模型,以下是论文内容要点:
- 背景与动机:在数字创造力领域,现有的数字工具限制了我们从想象中构建复杂3D世界的能力,因为它们需要大量的专业知识和努力。为了缩小这一差距,作者们提出了CLAY模型。
- CLAY模型介绍:CLAY是一个3D几何和材质生成器,旨在将人类的想象力轻松转化为复杂的3D数字结构。它支持经典文本或图像输入以及来自多种原语的3D感知控制。
- 核心技术:CLAY的核心是大规模生成模型,由多分辨率变分自编码器(VAE)和最小化潜在扩散变换器(DiT)组成,直接从多样的3D几何形状中提取丰富的3D先验。
- 3D原生几何生成:CLAY采用神经场表示连续完整的表面,并使用具有纯变换器块的几何生成模块在潜在空间中生成。
- 训练方案:提出了一种渐进式训练方案,在超大型3D模型数据集上训练CLAY,该数据集通过精心设计的处理流程获得,生成具有15亿参数的3D原生几何生成器。
- 外观生成:CLAY使用多视图材质扩散模型生成基于物理的渲染(PBR)纹理,可以生成具有漫反射、粗糙度和金属度的2K分辨率纹理。
- 应用展示:展示了使用CLAY进行一系列可控3D资产创建的结果,从草图概念设计到生产就绪资产,具有复杂细节。
- 用户友好性:即使是首次用户也能轻松使用CLAY将他们生动的3D想象变为现实,释放无限的创造力。
- 框架概述:提供了CLAY框架的概述,强调了其在3D数据上的广泛训练能力,能够将文本描述转化为详细的3D几何体,并通过基于物理的材料生成和多模态适应,确保3D资产在数字环境中的真实渲染。
- 相关工作:讨论了3D生成作为AIGC中增长最快的研究领域,以及之前的实践探索了不同的方法,包括直接在3D数据集上训练,将生成的2D图像作为先验,以及在2D生成上施加3D先验。
- 模型架构:详细介绍了CLAY的表示和模型架构,包括多分辨率VAE和Coarse-to-fine DiT,以及如何通过预归一化和GeLU激活来增强VAE和DiT架构。
- 数据标准化:讨论了为了预训练大规模3D生成模型,如何通过重构方法统一和标准化3D数据集,包括几何统一和几何注释。
- 资产增强:为了使生成的数字资产直接在现有的CG管线中使用,采用了后生成几何优化和材质合成的两阶段方案。
- 模型适应性:CLAY作为一个多功能的基础模型,支持在DiT的注意层上进行低秩适应(LoRA),允许针对特定样式的有效微调。
- 实验结果:展示了CLAY在不同条件下生成的3D模型样本,并与其他最先进方法进行了比较,证明了CLAY在生成质量和多样性方面的优势。
- 讨论与结论:总结了CLAY如何作为一个大型3D生成模型,支持多模态控制,用于创建高质量的3D资产,并讨论了其伦理声明、局限性和未来的工作方向。