发表于: 2025/08/08 16:37 | 作者: NICA

      近年来,具身视觉导航智能体在干净观测下能够取得相当高的性能,但是当观测存在光照变化、模糊、噪声等视觉扰动时,现有方法的鲁棒性严重下降,甚至完全失效。不同于具身视觉导航智能体,人脑视觉系统能够对外界环境的关键线索进行有效整合和加工,获取超越颜色、形状、纹理的高级语义信息,因此具有很好的鲁棒性。这一观察启发我们:能否借助人脑的高级感知机制来增强视觉导航智能体的鲁棒性?我们利用神经数据构造模拟人脑视觉系统的模型,提出了两阶段神经数据驱动的鲁棒具身视觉导航方案。第一阶段是脑编码器预训练。我们利用预训练模型DINOv2构建基于Transformer结构的视觉神经编码模型,并在大规模神经影像数据集NSD上对视觉神经编码模型进行预训练。第二阶段是脑机融合导航策略训练。我们利用预训练冻结权重的视觉神经编码模型构造带有人脑认知信息的神经表征,并通过多模态融合模块对齐神经表征和视觉表征获得联合表征用于导航策略学习。为了系统验证方法的有效性,我们在涵盖模糊、暗光等多种典型视觉扰动场景下进行了测试。实验证明,我们的方法在多种严重视觉扰动条件下的导航成功率和效率显著高于先进的基线方法,展示了人脑高级认知表征带来的性能提升。

 

中文标题:BraiNav:融合人脑信号表征增强智能体视觉导航鲁棒性

英文标题:BraiNav: incorporating human brain activity to enhance robustness in embodied visual navigation

论文作者:彭杰,杜长德,付铠城,何晖光