3D-Fixer框架基于原位补全重构单图3D场景生成流程

荣耀疏财 2026-05-19 5157

3D-Fixer

打破重建与生成边界

基于原位补全开启 3D 场景生成新范式

基于单张图像生成完整三维场景，是构建物理世界数字孪生的关键问题。现有方法在复杂场景中普遍面临两方面瓶颈：一是受遮挡等因素影响，几何重建往往不完整;二是依赖显式姿态对齐，易引发误差累积与结构错位。此外，高质量且多样化的场景级数据稀缺，也进一步限制了模型的泛化能力。近期三维基础模型(如 VGPT、Pi3)已具备一定的可泛化前馈几何重建能力，但由于缺乏物体级理解与生成能力，难以直接用于构建可交互的三维场景。

为此，我们提出 3D-Fixer 框架，其核心在于引入“原位补全(In-place Completion)”范式。该范式摒弃传统显式位姿对齐流程，以 3D 基础模型预测的残缺几何为空间锚点，在 3D 空间中直接完成三维生成与几何补全。在维持全局布局一致性的同时，协同优化空间定位精度与单体完整性，消除了迭代对齐导致的误差累积。

架构设计方面，3D-Fixer 采用由粗到精(Coarse-to-Fine)分阶段生成策略，并引入遮挡鲁棒特征对齐机制。通过融合预训练生成先验与几何观测，模型在遮挡条件下亦能稳定恢复场景结构，有效缓解边界模糊。数据层面，针对场景级训练数据缺口，本文构建并开源了大规模组合式数据集 ARSG-110K，包含 11 万个程序化复杂场景与 300 万张具备高保真三维标注的图像。

实验表明，3D-Fixer 仅依托自主构建的 ARSG-110K 数据集完成训练，即在多项核心评测指标上显著优于现有基准方法，在维持前馈推理效率的同时，有效提升了几何重建精度与模型泛化性。目前，该论文已被 CVPR 2026 录用，配套代码、数据集及项目主页均已全面公开。本工作为低成本构建可交互数字孪生环境提供了新的技术路径，期望推动具身智能系统的大规模泛化与实际落地。

• 项目主页：

https://zx-yin.github.io/3dfixer

• 文章链接：

https://arxiv.org/pdf/2604.04406

•GitHub代码：

https://github.com/HorizonRobotics/3D-Fixer

现有挑战

基于单张图像生成3D场景，是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显著权衡：端到端方法受限于训练数据多样性不足，导致难以泛化；而分而治之 (pide-and-conquer) 方法虽通过“单体生成+位姿对齐”提升了泛化能力，但计算开销大，且极易引入对齐失败与误差累积问题。

与此同时，场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集（如 3D-FRONT），规模有限且多样性不足。大规模真实数据（如 ScanNet）虽具丰富多样性，却缺乏可靠的物体级3D几何标注；自动构建数据（如 MetaScenes）在一定程度上弥补了标注缺失，但仍存在几何错位与形状不一致等问题，难以作为高精度训练数据。因此，构建兼具大规模、多样性与高精度标注的数据体系，是突破该方向性能上限的关键路径。

方法核心：原位补全新范式

3D-Fixer摒弃传统显式位姿对齐流程，利用3D基础模型从RGB图像中估计观测几何并构建空间锚点，直接在原始三维空间中完成3D生成与几何补全。该方法在保持全局布局一致性的同时，实现空间定位精度与物体完整性的协同优化，有效避免了迭代对齐带来的误差累积。

基于这一思考，本文采用由粗到细 (Coarse-to-Fine) 的分阶段设计，将几何范围估计与细节生成有效解耦。具体而言，3D-Fixer以几何估计得到的点云为条件，结合实例分割模型，将场景中的不同实例划分至独立的mask中；随后，在各实例点云基础上，首先通过Coarse structure Completer预测物体完整几何的粗略范围，再在该约束空间内利用Fine Shape Refiner进行细粒度几何重建，最终通过Occlusion-Aware 3D Texturer为生成结果补充纹理并处理遮挡区域。

在模型结构上，本文采用双分支设计：一条分支保持预训练物体生成先验不变，以最大程度保留其生成能力；另一条分支显式建模场景上下文信息，用于对生成过程进行条件调控，从而实现面向复杂场景的原位补全。

数据引擎：大规模场景数据集

ARSG-110K

场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集（如 3D-FRONT）规模有限且多样性不足；大规模真实数据（如 ScanNet）缺乏可靠的物体级3D几何标注；自动构建数据（如 MetaScenes）则存在几何错位等问题。

针对此数据缺口，我们构建并开源了ARSG-110K数据集：

数据规模：收集180K+高质量物体资产、1K+HDR贴图及5K+材质，自动构建110K+个多样化场景（单场景5-20个实例），产出超300万张图像。

标注精度：基于Blender Cycles渲染引擎实现物理一致的光照与材质建模，提供精确的实例级掩码、物体几何真值及完整布局信息。

实验结果

3D-Fixer仅在自主构建的ARSG-110K数据集上进行训练，在多项评测指标上大幅超越现有方法：

高效推理效率：在MIDI测试集上，单场景生成耗时仅为30s，对比Gen3DSR（9分钟）和REPARO（4分钟），效率有数量级提升。

最佳重建精度：在MIDI测试集中，交并比 (IoU) 达到0.492，倒角距离 (CD) 等指标均处于最优水平。

良好的泛化能力：在ScanNet子集、自建测试集以及室外等复杂遮挡场景中，3D-Fixer均展现了优异的几何完整性、布局恢复能力与结构一致性。

可视化结果进一步表明，该方法在结构一致性与生成质量上均优于现有方案。

总结与展望

3D-Fixer提出的“原位补全”范式系统性重构了单图3D场景生成流程，有效实现了泛化能力与生成效率的平衡。该框架结合前馈式架构与ARSG-110K大规模数据集，为构建高保真、强泛化的三维数字孪生环境提供了可靠方案。项目代码与数据现已全面开源，旨在为3D视觉生成、机器人感知及具身智能仿真等领域提供底层技术支撑。

推荐阅读：
快速发展背后压力重重，泰康养老频繁增资能否解决问题？
习近平同塔吉克斯坦总统拉赫蒙共同出席中方援塔议会大楼和政府大楼落成仪式,习近平同塔吉克斯坦总统拉赫蒙共同出席中方援塔议会大楼和政府大楼落成仪式
湖北郧西发现柱状喀斯特景观实证秦岭地貌演化
第十四届全国美展中国画作品展对公众开放
护曲护艺也护“人” 浙江温州施行曲艺类地方性法规
从数字化复原到古建筑活化专家聚焦“三山五园”保护利用

<< 充电桩人体靠近唤醒方案对比：雷达传感为何逐渐取代热释电？

线上消费ETF平安 (159793): 平安中证沪港深线上消费主题交易型开放式指数证券投资基金基金产品资料概要更新 >>

3D-Fixer框架基于原位补全重构单图3D场景生成流程

您可以还会对下面的文章感兴趣：

相关文章