🙃InstructAvatar:利用文本引导精细化控制人物角色的面部表情和动作

type
status
slug
summary
tags
category
icon
password
Date
notion image
InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation
介绍网站:https://wangyuchi369.github.io/InstructAvatar/论文地址:https://arxiv.org/abs/2405.15758
InstructAvatar 是由北京大学研究团队提出的一种创新的文本引导的2D虚拟角色生成框架。该框架通过自然语言接口,实现了对虚拟角色情感和面部动作的精细控制,显著提升了生成视频的生动性和可控性。
notion image
notion image
InstructAvatar 的特点在于其高度的交互性和用户友好性。它不仅能够根据文本指令生成具有特定情感表达的虚拟角色,还能够在没有音频线索的情况下,直接控制角色的面部动作和表情。这种能力使得InstructAvatar在多种应用场景下具有广泛的适用性,如影视制作、游戏开发、视频会议等。此外,InstructAvatar在实验中展现出了优秀的细粒度情感控制能力、口型同步质量和自然性,这些都通过客观和主观的评估指标得到了验证。
技术解读
与传统的虚拟角色生成模型相比,InstructAvatar能够更好地传达角色的详细表情和情感,从而使得最终的视频更加逼真和富有表现力。技术上,InstructAvatar采用变分自编码器(VAE)来分离视频中的动作和外观信息,并结合了一个新颖的基于扩散模型的双分支生成器,它能够同时处理音频和文本指令,预测出符合要求的虚拟角色动作。
InstructAvatar 的生成过程结合了文本分析、音频处理和面部动作生成一系列复杂流程,具体可以分为以下几个步骤:
  1. 数据准备:首先,研究团队通过自动注释流程构建了一个包含指令和视频对的训练数据集。这个数据集利用了Action Units(AUs)来描述面部肌肉的运动,并借助大型多模态语言模型GPT-4V将AUs转换成自然语言描述,以生成包含详细情感和动作描述的数据集。
  1. 模型架构:InstructAvatar采用了变分自编码器(VAE)来分离视频中的动作信息和外观信息。VAE包含动作编码器、外观编码器和解码器。此外,模型还包含一个基于扩散模型的双分支动作生成器,它通过交叉注意力机制整合不同类型的指令,包括情感指令和面部动作指令。
  1. 文本引导:利用CLIP文本编码器对文本指令进行编码,并通过交叉注意力机制将文本信息注入到模型中。模型区分情感指令和动作指令,使用不同的策略来处理它们。情感指令提供整个视频的风格指导,而动作指令描述随时间变化的动作和过渡。
  1. 音频处理:使用Wave2Vec 2.0作为音频编码器提取音频特征,并将这些特征与动作潜在表示向量进行元素级相加,实现音频信息的整合。
  1. 训练过程:模型通过最小化预测动作潜在表示与真实动作潜在表示之间的距离来训练。同时,通过训练分类器头来关注动作单元和情感强度,使用二元交叉熵损失和标准交叉熵损失来增强模型对这些细节的捕捉。
  1. 推理过程:在推理阶段,首先采样高斯噪声初始化动作潜在表示。然后,使用训练好的去噪网络迭代去噪,根据用户提供的音频和文本指令生成动作。最终,通过VAE解码器结合用户提供的肖像生成RGB视频。
  1. 输出结果:InstructAvatar能够根据文本指令精确控制虚拟角色的情感表达和面部动作,生成具有高质量口型同步和自然动作的视频。这些视频不仅情感丰富,而且能够很好地保持角色的身份特征。
整个过程展示了InstructAvatar如何将文本指令转化为虚拟角色的动作和表情,实现了高度自然和可控的虚拟角色生成。
论文解读
本文提出了一个名为InstructAvatar的新型文本引导的2D虚拟角色生成框架,其主要贡献和特点如下:
  1. 研究背景与动机:尽管现有的虚拟角色生成技术在口型同步方面取得了进展,但在控制和传达角色的详细表情和情感方面存在不足,导致生成的视频缺乏生动性和可控性。
  1. InstructAvatar框架:提出了一种新颖的文本引导方法,通过自然语言接口控制虚拟角色的情感和面部动作,以生成情感丰富的虚拟角色。
  1. 技术实现
      • 设计了一个自动注释流程,构建了指令-视频配对的训练数据集。
      • 提出了一个新颖的双分支扩散模型生成器,能够同时根据音频和文本指令预测虚拟角色。
  1. 实验结果:InstructAvatar在细粒度情感控制、口型同步质量和自然性方面均优于现有方法。
  1. 方法详解
      • 使用变分自编码器(VAE)分离视频中的动作信息。
      • 利用基于扩散模型的动作生成器,根据音频和文本指令生成动作潜在表示。
  1. 数据准备
      • 利用Action Units (AUs) 描述面部肌肉运动,通过大规模多模态语言模型GPT-4V将AUs释义为自然文本描述。
  1. 模型架构
      • 采用了Conformer作为扩散模型的主干网络。
      • 设计了双分支交叉注意力机制,分别处理情感指令和面部动作指令。
  1. 训练与推理流程
      • 定义了损失函数,包括均方误差损失、动作单元分类损失和情感强度损失。
      • 在推理过程中,通过迭代去噪高斯噪声来预测动作潜在表示,并生成最终视频。
  1. 实验设置与评估
      • 使用MEAD、HDTF和CC v1等数据集进行训练和评估。
      • 采用客观和主观评估指标,如AUF1、AUEmo、CLIPS、SyncD和FID等。
  1. 结果分析:InstructAvatar在情感控制、口型同步和自然性方面展现出色的表现,并且能够根据文本输入直接推断出角色的情感,支持广泛的指令范围。
  1. 可视化结果:展示了InstructAvatar在情感控制和面部动作控制方面的额外结果,证明了模型在遵循指令和保持身份特征方面的能力。
  1. 伦理考量:鼓励负责任地使用InstructAvatar,避免用于生成欺骗性内容或参与不真实活动。
  1. 结论与局限性:InstructAvatar在虚拟角色生成方面提供了优越的灵活性和控制效果,但仍存在局限性,如对动作单元的精确控制能力可能受限,训练数据集的规模可能影响模型在面对高度非领域指令时的鲁棒性。
Meta的新AI模型基准测试有点误导性Reddit联手Google Gemini升级AI搜索工具,用户体验大提升!
热点追踪
论文解读
开源项目