Workflow
BeDAViN数据集
icon
Search documents
BeDAViN:大规模音频-视觉数据集与多声源架构研究
具身智能之心· 2025-07-16 09:12
作者丨 视觉语言导航 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 主要贡献 研究背景 具身导航的重要性 :具身导航是具身智能(Embodied AI)的一个基本且关键的组成部分,要求自主智能体 通过与未见过的环境交互来解决复杂的导航任务。近年来,具身导航技术被广泛应用于家庭服务、仓储和物 流等领域。 | Dataset | Total number Total duration | | --- | --- | | | of audio of samples | | SAVi-dataset (Chen, Al-Halah, and | 1.157 144 seconds | | Grauman 2021) | | | BeDAViN (Ours) | 2.258 | 现有研究的局限性 : 数据集限制 :现有的音频-视觉导航数据集样本有限,难以模拟多样化的多声源场景。 框架限制 :大多数现有的导航框架是为单声源场景设计的,在多声源场景下的性能大幅下 ...