点击下方卡片,关注「3D视觉工坊」公众号选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?密集的同时定位与地图构建(Simultaneous Localization and Mapping,SLAM)是三维计算机视觉领域的一个基础研究课题,旨在在未知环境中定位相机的六自由度(6DoF)姿态并重建密集地图。它是虚拟现实/增强现实(VR/AR)、机器人定位/导航和视觉感知不可或缺的一部分。例如,在VR/AR中,SLAM系统可以为移动设备和头戴设备提供姿态信息,帮助用户与虚拟内容进行交互,而密集重建的几何结果能更好地模拟物理空间碰撞,从而创造更加沉浸和引人入胜的体验。传统的RGB-D SLAM系统通常执行帧到模型的优化,基于RGB-D相机在像素级别的深度或颜色观测来跟踪相机。得益于深度传感器,传统方法使用迭代最近点(ICP)和截断符号距离函数(TSDF)来更新由几何基元(如体素、成本体量和曲面元素)表示的全局地图。随着深度学习的发展,最近的研究工作转向探索数据驱动的先验知识并利用神经网络的平滑特性。尽管传统和基于学习的密集SLAM系统都展现出了良好的定位和重建性能,但它们无法进行新视角渲染和生成水密表面。对于VR/AR应用而言,逼真的图像渲染和新视角合成也起着重要作用。作为研究领域之一,基于神经辐射场(Neural Radiance Field,NeRF)的SLAM方法在新视角渲染、高保真地图重建和空洞填充方面表现出了显著优势。与传统SLAM方法不同,神经隐式SLAM采用神经辐射场来表示场景属性,并利用多层感知机(MLP)来解码场景的属性(颜色、密度、有符号距离函数、语义信息等)。得益于体渲染和位置编码,隐式表示能够实现高保真图像渲染和新视角合成。iMAP是首个神经隐式密集SLAM系统,它直接使用单个MLP来建模几何和外观信息。然而,由于MLP在持续学习中的遗忘问题,它很难重建大型室内场景。
为了克服这一挑战,许多工作提出使用额外的参数化编码,如密集特征网格/平面/点、哈希表等,以增强MLP的表示能力。然而,额外的密集特征会导致