🗿ID-to-3D:基于文本提示和少量图像生成具有身份一致性和表达性的3D头像

type
status
slug
summary
tags
category
icon
password
Date
notion image
ID-to-3D: Expressive ID-guided 3D Heads via Score Distillation Sampling
介绍网站:https://idto3d.github.io/论文地址:https://arxiv.org/abs/2405.16570
ID-to-3D 是一种创新的3D人头生成方法,由伦敦帝国理工学院的研究人员开发。它能够利用单个或几个野外捕获的图像以及文本提示来创建具有身份一致性和表达性的3D头像。
notion image
ID-to-3D 的特点是它在生成过程中能够解耦表情,每张脸可以有多达13种独特且与身份一致的表情。这得益于它所使用的神经参数化表示,它为每个主题的表情提供了一种新颖的身份特定的表情表示。此外,该方法不需要依赖昂贵且通常有偏见的大型3D扫描数据集,也不受特定几何模板的限制,使得它可以广泛应用于不同特征的主体,包括不同的肤色和发型。
notion image
研究团队展示了ID-to-3D在不同场景下的应用效果,包括与现有技术的比较分析,证明了其在生成高质量3D头像方面的优越性。
notion image
notion image
notion image
通过用户研究,ID-to-3D在几何质量和纹理质量方面获得了最高的用户偏好,展现了其在3D人头生成方面的领先地位。
技术解读
ID-to-3D 基于组合性原理,并结合了特定任务的2D扩散模型作为优化的先验。通过仅微调基础模型极小部分的训练参数,ID-to-3D能够生成2D先验,进而用于细节丰富的几何形状和反照率纹理的创建。其结果不仅在面部特征上保持了高度的准确性,还能够准确地重建配饰和发型,生成适用于游戏和远程呈现的渲染就绪资产。
ID-to-3D 结合了先进神经网络技术和优化算法,生成过程主要步骤如下:
  1. 预备阶段(Preparation)
      • 首先,ID-to-3D需要一个基础模型,这个模型通过微调一小部分(仅0.2%)的可训练参数来扩展其功能,以适应特定的2D先验。
      • 使用ArcFace技术来生成身份嵌入(ID-embeddings),这些嵌入捕获了每个主题的独特面部特征。
  1. 2D先验创建(2D Prior Creation)
      • 利用大型2D生成模型,这些模型在大量易于获取的2D图像上预训练,并使用少量3D数据进行微调,以创建几何和纹理的2D先验。
  1. 表情参数化表示(Expression Parametric Representation)
      • 开发一个新颖的神经参数化模型来表示每个主题的表情,这个模型能够捕捉到细微的表情变化,并保持与身份的一致性。
  1. 多阶段生成(Multi-Stage Generation)
      • 通过一个多阶段的生成流程,首先初始化3D几何形状,然后逐步精细化几何和纹理细节。
      • 使用深度学习模型,如变形的四面体网格(DMTET)和Transformer网络,来生成高度详细的3D资产。
  1. 优化和训练(Optimization and Training)
      • 利用得分蒸馏采样(Score Distillation Sampling, SDS)技术,通过优化3D几何ψg、纹理ψa和一系列表情潜在代码kexp来进行训练。
      • 在训练阶段,模型会随机选择光照条件l和表情条件yexp,以增强模型的泛化能力。
  1. 推理和部署(Inference and Deployment)
      • 在部署时,ID-to-3D能够从输入的图像和文本提示中提取高质量的、具有身份意识的表情3D网格。
      • 生成的3D资产支持重新照明、与身份一致的编辑和物理模拟。
  1. 结果呈现(Result Presentation)
      • 最终,ID-to-3D能够生成具有高保真纹理和几何细节的3D头像,这些头像在不同的渲染引擎中都能够逼真地呈现。
整个过程是高度自动化的,它依赖于强大的深度学习架构和优化技术,以确保生成的3D模型既具有高度的细节,又能够忠实地反映出原始图像中的主题特征和表情。
论文解读
本文提出了一种名为"ID-to-3D"的新方法,它能够从单个或多个随意捕捉的野外图像中生成具有身份和文本引导的3D人头模型,并且具有可分离的表情。
以下是论文要点概括:
摘要(Abstract)
  • 提出了一种基于组合性和任务特定2D扩散模型作为优化先验的方法,用于生成具有身份和文本引导的3D人头。
  • 通过仅微调基础模型0.2%的训练参数,创建了2D先验,用于几何和纹理生成。
  • 结合了强大的面部身份嵌入和神经表示,能够准确重建面部特征、配饰和头发,并可生成适用于游戏和远程呈现的渲染就绪资产。
引言(Introduction)
  • 讨论了生成高质量3D头像的挑战和重要性,以及现有方法的局限性,如手动工作、昂贵的扫描或依赖大规模扫描数据集。
相关工作(Related Work)
  • 概述了3D人类生成和重建的研究进展,包括3D可变形模型(3DMMs)、生成对抗网络(GANs)、扩散模型等。
ID-to-3D方法(ID-to-3D)
  • 详细介绍了ID-to-3D方法,包括3D头优化目标、2D引导、几何生成和纹理生成等各个组件。
  • 使用了ArcFace yid和文本ytext条件,通过两阶段SDS流水线生成具有高几何细节和高保真纹理的表达式头像。
实验(Experiments)
  • 对ID-to-3D方法进行了评估,包括身份生成、表达式ID条件生成和基于文本的定制化。
  • 与现有的基于文本到3D和图像到3D的生成管线进行了比较分析。
结论和伦理考虑(Conclusion and Ethical Considerations)
  • 讨论了ID-to-3D方法的局限性,包括泛化能力、物理约束的优化和计算资源需求。
  • 强调了技术进步带来的社会影响和伦理问题,倡导负责任的研究,并提出了减轻不真实重建的措施。
附加结果(Additional Results)
  • 提供了更多使用ID-to-3D方法生成的3D资产的示例,包括在不同条件下的渲染效果。
实现细节(Implementation Details)
  • 描述了2D引导模型的开发、几何和纹理生成的具体实现,以及用户研究的方法。
结果渲染(Results Rendering)
  • 说明了用于展示论文中结果的渲染技术,以及这些结果如何容易地与行业工具集成。
整体来看,这篇论文提出了一种创新的方法,能够在不需要大规模3D数据集的情况下,通过少量图像和文本提示生成高质量且具有身份一致性的3D人头模型。
请扫码查看[ - ]Rust系统工程师助手提示词
AI 提示词收集
经典论文解读
开源仓库推荐
<每日AI播客>