🎶Action2Sound:环境感知生成逼真动作声音的新技术

type
status
slug
summary
tags
category
icon
password
Date
notion image
Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
介绍:https://vision.cs.utexas.edu/projects/action2sound/论文:https://arxiv.org/abs/2406.09272
Action2Sound 是一项创新的研究工作,旨在解决从第一人称视角视频中生成与人类动作相关联的真实音频的问题,它由来自德克萨斯大学奥斯汀分校和Meta AI的研究团队联合开发。与现有技术相比,Action2Sound 提出了一种环境感知的方法,能够在训练时处理自然背景声音,同时在生成音频时区分前景动作声音和背景环境声音。这种能力是通过一个新颖的音频调节机制实现的,它允许模型在给定一个无声视频的情况下,使用检索增强的生成方法来创造出在语义和时间上与视觉内容相匹配的音频。
notion image
通过人类评估研究,Action2Sound进一步证明了其在生成逼真动作声音方面的有效性,并且展示了其在控制环境声音方面的潜力,这对于创建更加沉浸式的音频体验具有重要意义。该技术对于电影制作、虚拟现实游戏和增强现实体验等应用至关重要。
notion image
Action2Sound 的研究还扩展到了对Ego4D-Sounds数据集的创建和使用,这是一个包含120万个音视频动作片段的大规模数据集,覆盖了多样的自然场景和动作。该数据集的创建为动作声音生成的研究提供了丰富的资源,同时也证明了Action2Sound模型在多种评价指标上超越了现有方法,包括音频质量、视听同步性和与动作描述的语义相似性。
技术解读
Action2Sound 的核心是它的模型——AV-LDM,即音频-视觉潜在扩散模型。该模型不仅能够学习如何从视频中提取动作声音,还能够通过一个独特的训练机制,让模型学会忽略与视觉内容无关的背景声音。这种机制在训练时引入了来自同一视频但不同时间戳的音频片段,以此来帮助模型识别和分离动作声音。此外,Action2Sound还展示了在测试时不依赖于真实视频/音频对的创新检索方法,通过检索训练集中与输入视频视觉相似性最高的音频片段来增强生成过程。
notion image
Action2Sound 的生成过程主要包括以下几个关键步骤:
  1. 数据集构建:首先,研究者基于Ego4D数据集创建了Ego4D-Sounds数据集,包含120万个与动作相关联的视频片段。这些片段不仅涵盖了多样的场景和动作,而且每个片段都有时间标记的旁白描述动作内容,为动作声音生成提供了丰富的训练材料。
  1. 环境声音与动作声音分离:Action2Sound模型采用一种新颖的音频调节机制,通过在训练过程中引入与输入视频片段来自同一视频但时间戳不同的音频片段作为条件,来分离前景动作声音和背景环境声音。这种方法利用了环境声音在时间上的持久性特点,减轻了模型从视觉输入中学习弱相关或不相关环境声音的负担,鼓励模型专注于从视觉帧中学习动作提示。
  1. 检索增强生成:在测试阶段,由于无法访问与输入视频片段相同的长视频中的其他片段,Action2Sound使用检索增强生成方法。具体来说,模型通过一个音频-视觉相似度评分模型检索训练集中与输入视频在视听上最相似的音频片段,从而实现对生成音频的环境声音成分的可控性。
  1. 音视频潜在扩散模型(AV-LDM):Action2Sound采用了一个扩展的潜在扩散模型来同时处理音频和视频条件。在训练阶段,模型将音频波形转换为mel频谱图,然后通过变分自编码器(VAE)压缩成潜在表示,用于生成过程。在生成阶段,模型利用分类器自由引导和DPM-Solver加速采样,从潜在空间中生成音频。
  1. 声音生成:在推理时,模型首先采样标准高斯噪声,然后通过训练好的声码器(例如HiFi-GAN)将潜在表示上采样成mel频谱图,并最终生成波形。这个过程允许模型根据输入的无声视频和检索到的音频条件生成与视觉内容在语义和时间上相匹配的音频。
  1. 控制环境声音:Action2Sound模型能够根据测试时提供的音频条件生成不同环境声音水平的音频。这允许在不同的应用场景中定制音频生成,例如在需要最小化环境声音的游戏场景中。
整个Action2Sound的处理和生成过程是高度自动化和智能化的,它不仅提高了动作声音生成的准确性和可控性,而且拓宽了训练数据的来源,使得从真实世界视频中学习并生成精确的动作声音成为可能。
论文解读
本文是关于一项名为Action2Sound的研究,它提出了一种环境感知的方法,能够从第一人称视角的视频(egocentric videos)中生成与人类行为相关的声音。
以下是论文内容要点:
摘要(Abstract)
  • 论文提出了一种新颖的环境感知音频生成模型(AV-LDM),用于从第一人称视角视频中生成与人类交互相关的现实音频,适用于电影声效制作或虚拟现实游戏等。
  • 现有方法在训练时假设视频和音频完全对应,但许多声音发生在屏幕外,与视觉内容无对应关系,导致测试时产生不可控的环境声或幻觉。
  • 该模型通过一种新的音频调节机制,学习将前景动作声音与背景环境声音分离,即使在训练视频含有自然背景声音的情况下,也能忠实于观察到的视觉内容生成音频。
1. 引言(Introduction)
  • 论文讨论了日常动作产生的声音特征,以及如何从无声视频中合成语义合理且时间同步的动作声音,对现实世界应用的潜在影响。
2. 相关工作(Related Work)
  • 论文回顾了动作声音生成、第一人称视频理解与音频、以及扩散模型和条件音频生成等相关领域的研究工作。
3. 环境感知动作声音生成(Ambient-aware Action Sound Generation)
  • 论文详细介绍了如何指导生成模型将动作声音与环境声音分离,提出了一种在训练中实现声音分离的简单有效方法,并介绍了如何将这一理念应用于扩散模型,形成了音视频潜在扩散模型(AV-LDM)。
4. Ego4D-Sounds数据集(The Ego4D-Sounds Dataset)
  • 论文描述了Ego4D-Sounds数据集的创建过程,这是一个用于人类动作声音生成的音视频数据集,包含120万个音频-视觉动作片段。
5. 实验(Experiments)
  • 论文展示了模型在Ego4D-Sounds和EPIC-KITCHENS数据集上的性能评估,并通过人类评估研究验证了模型性能。
6. 结论(Conclusion)
  • 论文总结了研究成果,提出了未来工作的方向,包括探索将学习到的音频生成模型应用于虚拟现实游戏等场景。
这篇论文的核心贡献是提出了一种能够从第一人称视角视频中生成与动作相关声音的方法,同时能够控制环境声音的水平,这对于提高虚拟现实体验和电影制作中的音效生成具有重要意义。
Meta的新AI模型基准测试有点误导性Reddit联手Google Gemini升级AI搜索工具,用户体验大提升!
热点追踪
论文解读
开源项目