热点追踪
论文解读
开源项目
🗿M-LRM:多视角大型3D重建模型
type
status
slug
summary
tags
category
icon
password
Date
M-LRM: Multi-view Large Reconstruction Model
介绍网站:https://murphylmf.github.io/M-LRM/论文地址:https://arxiv.org/abs/2406.07648
多视角大型重建模型(M-LRM)是一种先进的3D重建技术,它通过从多个视角的图像中高效地重建出高质量的3D形状。M-LRM的核心特点在于其3D意识型的设计,这使得它能够捕捉输入图像间的强烈3D一致性,从而显著提高重建的几何和纹理质量。
与传统的大型重建模型(LRM)相比,M-LRM引入了多视角一致性交叉注意力机制,这种机制能够精确地从输入图像中查询信息,并通过3D先验知识初始化三平面令牌,以此加快模型的收敛速度并提升重建结果的精度。
.gif?table=block&id=e20223a5-9f5d-4581-81c7-29776c174a50&t=e20223a5-9f5d-4581-81c7-29776c174a50&width=640&cache=v2)
.gif?table=block&id=677a3805-7641-4e24-b0ac-4330d3b5fae5&t=677a3805-7641-4e24-b0ac-4330d3b5fae5&width=640&cache=v2)
通过这些创新的技术,M-LRM不仅在生成新颖视图和高质量几何形状方面表现出色,而且在实验中显示出比现有技术更快的训练收敛速度,确立了其在3D重建领域的领先地位。
技术解读
M-LRM的特点是其完全可微分的基于变换器的框架,这包括特征编码器、几何感知位置编码和多视角交叉注意力块。这种设计允许模型在给定多视角图像及其相应的相机姿态时,有效地整合2D和3D特征,以3D意识的方式进行多视角注意力的计算。此外,M-LRM采用的几何感知位置编码技术,能够将3D信息直接整合到变换器架构中,进一步提高了3D生成的细节和现实感。
M-LRM 的生成过程是一个高效且完全可微分的流程,主要步骤包括:
- 图像特征提取:首先,M-LRM使用图像编码器从多视角输入图像中提取特征。这些特征捕获了输入视图的2D信息。
- 几何感知位置编码(Geometry-aware Positional Embeddings, GaPE):M-LRM创新性地提出了几何感知位置编码技术。通过构建一个网格体积,将3D空间中的顶点投影回每个输入视图的特征图上,从而生成特征网格。这些网格随后被融合成一个统一的特征体积,为初始化可学习的三平面令牌提供了丰富的3D先验信息。
- 多视角交叉注意力(Multi-view Consistent Cross-Attention, GCA):M-LRM引入了一种新颖的交叉注意力机制,该机制仅关注与3D空间中每个射线相关的特征令牌,而不是整个视图的特征。这种机制显著提高了计算效率,并且通过显式的3D先验增强了信息融合的相关性。
- 3D内容生成:利用初始化后的三平面令牌和通过交叉注意力机制融合的特征信息,M-LRM通过变换器架构进行3D内容的生成。这一步骤涉及到将编码的3D信息和学习到的三平面令牌通过变换器解码,生成3D形状的密度和颜色值。
- NeRF渲染:最后,M-LRM使用神经辐射场(Neural Radiance Fields, NeRF)渲染器,结合生成的三平面令牌,渲染出新的视图和3D网格。这一步骤确保了生成的3D内容具有高度的真实感和细节。
- 训练与优化:在训练过程中,M-LRM通过最小化包括均方误差损失、二进制掩码损失和LPIPS损失在内的多方面损失函数来优化模型参数。此外,模型利用不同的数据增强技术,如相机增强和图像网格扭曲,进一步提高了模型的泛化能力。
整个处理流程是端到端的,从多视角图像输入到高质量的3D形状输出,M-LRM展示了其在3D重建任务中的高效性和先进性。
论文解读
本文提出了一种名为多视角大型重建模型(M-LRM)的新型3D重建架构,其主要贡献和内容要点概括如下:
- 背景与挑战:传统的大型重建模型(LRM)在将单图像扩展到多图像输入时,面临效率低下、几何和纹理质量不佳以及收敛速度慢的问题。这是因为LRM将3D重建简化为图像到3D的直接转换问题,忽略了输入图像间的3D一致性。
- M-LRM模型提出:为了解决这些问题,作者提出了M-LRM,这是一个3D意识型的多视角重建模型,能够高效地从多视角重建出高质量的3D形状。
- 关键技术介绍:
- 多视角一致性交叉注意力方案:使M-LRM能够准确从输入图像中查询信息。
- 3D先验初始化:利用输入多视角图像的3D先验来初始化三平面令牌,提高模型的几何感知能力。
- 性能提升:与LRM相比,M-LRM能够生成128×128分辨率的三平面NeRF,并产生高保真的3D形状。实验研究表明,M-LRM在性能上取得了显著提升,并且训练收敛速度更快。
- 框架概述:M-LRM是一个完全可微分的基于变换器的框架,包含特征编码器、几何感知位置编码和多视角交叉注意力块。该框架结合2D和3D特征,以3D意识的方式有效进行多视角注意力。
- 相关工作:论文回顾了3D生成、稀疏视图重建、大型重建模型和多视角生成等相关研究工作,展示了M-LRM在现有研究基础上的创新之处。
- M-LRM架构细节:
- 几何感知位置编码(GaPE):提出一种新颖的几何感知位置编码机制,充分利用图像先验。
- 高效几何感知交叉注意力(GCA):引入一种新的交叉注意力机制,结合显式的3D先验,增强图像特征与三平面令牌间的信息融合。
- 训练目标:使用可微分的NeRF渲染器进行图像和掩码的渲染,并采用均方误差损失、二进制掩码损失和LPIPS损失进行训练。
- 实验与评估:
- 在Google Scanned Objects(GSO)数据集上与Instant3D和LGM等基线方法进行比较,M-LRM在多视角重建任务中表现优于所有基线方法。
- 在单图像到3D生成任务中,使用Zero123++生成多视图条件图像,并与Instant3D、LGM和TripoSR等方法进行比较,展示了M-LRM生成的高质量3D对象。
- 结论与局限性:
- M-LRM有效地解决了现有方法的不足,能够从多视角生成高保真的3D形状,并且训练收敛速度快。
- 尽管如此,M-LRM仍有局限性,如目前模型只能接受固定数量的视图输入,未来的工作将扩展模型以支持任意输入视图。