3D-Fixer
打破重建与生成边界
基于原位补全开启 3D 场景生成新范式
基于单张图像生成完整三维场景,是构建物理世界数字孪生的关键问题。现有方法在复杂场景中普遍面临两方面瓶颈:一是受遮挡等因素影响,几何重建往往不完整;二是依赖显式姿态对齐,易引发误差累积与结构错位。此外,高质量且多样化的场景级数据稀缺,也进一步限制了模型的泛化能力。近期三维基础模型(如 VGPT、Pi3)已具备一定的可泛化前馈几何重建能力,但由于缺乏物体级理解与生成能力,难以直接用于构建可交互的三维场景。
为此,我们提出 3D-Fixer 框架,其核心在于引入“原位补全(In-place Completion)”范式。该范式摒弃传统显式位姿对齐流程,以 3D 基础模型预测的残缺几何为空间锚点,在 3D 空间中直接完成三维生成与几何补全。在维持全局布局一致性的同时,协同优化空间定位精度与单体完整性,消除了迭代对齐导致的误差累积。
架构设计方面,3D-Fixer 采用由粗到精(Coarse-to-Fine)分阶段生成策略,并引入遮挡鲁棒特征对齐机制。通过融合预训练生成先验与几何观测,模型在遮挡条件下亦能稳定恢复场景结构,有效缓解边界模糊。数据层面,针对场景级训练数据缺口,本文构建并开源了大规模组合式数据集 ARSG-110K,包含 11 万个程序化复杂场景与 300 万张具备高保真三维标注的图像。
实验表明,3D-Fixer 仅依托自主构建的 ARSG-110K 数据集完成训练,即在多项核心评测指标上显著优于现有基准方法,在维持前馈推理效率的同时,有效提升了几何重建精度与模型泛化性。目前,该论文已被 CVPR 2026 录用,配套代码、数据集及项目主页均已全面公开。本工作为低成本构建可交互数字孪生环境提供了新的技术路径,期望推动具身智能系统的大规模泛化与实际落地。
• 项目主页:
https://zx-yin.github.io/3dfixer
• 文章链接:
https://arxiv.org/pdf/2604.04406
•GitHub代码:
https://github.com/HorizonRobotics/3D-Fixer
现有挑战
基于单张图像生成3D场景,是构建物理世界数字孪生环境的关键技术问题。现有方法在泛化能力与生成效率之间存在显著权衡:端到端方法受限于训练数据多样性不足,导致难以泛化;而分而治之 (pide-and-conquer) 方法虽通过“单体生成+位姿对齐”提升了泛化能力,但计算开销大,且极易引入对齐失败与误差累积问题。
与此同时,场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT),规模有限且多样性不足。大规模真实数据(如 ScanNet)虽具丰富多样性,却缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)在一定程度上弥补了标注缺失,但仍存在几何错位与形状不一致等问题,难以作为高精度训练数据。因此,构建兼具大规模、多样性与高精度标注的数据体系,是突破该方向性能上限的关键路径。
方法核心:原位补全新范式
3D-Fixer摒弃传统显式位姿对齐流程 ,利用3D基础模型从RGB图像中估计观测几何并构建空间锚点,直接在原始三维空间中完成3D生成与几何补全。该方法在保持全局布局一致性的同时,实现空间定位精度与物体完整性的协同优化,有效避免了迭代对齐带来的误差累积。

基于这一思考,本文采用由粗到细 (Coarse-to-Fine) 的分阶段设计,将几何范围估计与细节生成有效解耦。具体而言,3D-Fixer以几何估计得到的点云为条件,结合实例分割模型,将场景中的不同实例划分至独立的mask中;随后,在各实例点云基础上,首先通过Coarse structure Completer预测物体完整几何的粗略范围,再在该约束空间内利用Fine Shape Refiner进行细粒度几何重建,最终通过Occlusion-Aware 3D Texturer为生成结果补充纹理并处理遮挡区域。
在模型结构上,本文采用双分支设计:一条分支保持预训练物体生成先验不变,以最大程度保留其生成能力;另一条分支显式建模场景上下文信息,用于对生成过程进行条件调控,从而实现面向复杂场景的原位补全。
数据引擎:大规模场景数据集
ARSG-110K
场景级数据规模与质量是限制泛化能力的长期瓶颈。现有高质量仿真数据集(如 3D-FRONT)规模有限且多样性不足;大规模真实数据(如 ScanNet)缺乏可靠的物体级3D几何标注;自动构建数据(如 MetaScenes)则存在几何错位等问题。
针对此数据缺口,我们构建并开源了ARSG-110K数据集:
数据规模:收集180K+高质量物体资产、1K+HDR贴图及5K+材质,自动构建110K+个多样化场景(单场景5-20个实例),产出超300万张图像。
标注精度:基于Blender Cycles渲染引擎实现物理一致的光照与材质建模,提供精确的实例级掩码、物体几何真值及完整布局信息。

实验结果
3D-Fixer仅在自主构建的ARSG-110K数据集上进行训练,在多项评测指标上大幅超越现有方法:
高效推理效率:在MIDI测试集上,单场景生成耗时仅为30s,对比Gen3DSR(9分钟)和REPARO(4分钟),效率有数量级提升。
最佳重建精度:在MIDI测试集中,交并比 (IoU) 达到0.492,倒角距离 (CD) 等指标均处于最优水平。
良好的泛化能力:在ScanNet子集、自建测试集以及室外等复杂遮挡场景中,3D-Fixer均展现了优异的几何完整性、布局恢复能力与结构一致性。
可视化结果进一步表明,该方法在结构一致性与生成质量上均优于现有方案。



总结与展望
3D-Fixer提出的“原位补全”范式系统性重构了单图3D场景生成流程,有效实现了泛化能力与生成效率的平衡。该框架结合前馈式架构与ARSG-110K大规模数据集,为构建高保真、强泛化的三维数字孪生环境提供了可靠方案。项目代码与数据现已全面开源,旨在为3D视觉生成、机器人感知及具身智能仿真等领域提供底层技术支撑。
推荐阅读:
【早报】国常会:审议通过《全链条支持创新药发展实施方案》;打击资本市场财务造假最新政策来了
【理论圆桌会】深刻理解和把握新质生产力,【理论圆桌会】深刻理解和把握新质生产力
“全力守住第二道防线”(扎实做好防汛抗旱、抢险救灾各项工作),“全力守住第二道防线”(扎实做好防汛抗旱、抢险救灾各项工作)
这三个地方,如何实现充电桩“村村全覆盖”(人民眼・新能源汽车下乡),这三个地方,如何实现充电桩“村村全覆盖”(人民眼・新能源汽车下乡)






