BeDAViN数据集 - filings, earnings calls, financial reports, news - Reportify

BeDAViN数据集

Search documents

BeDAViN：大规模音频-视觉数据集与多声源架构研究

具身智能之心· 2025-07-16 09:12

作者丨视觉语言导航点击下方卡片，关注" 具身智能之心 "公众号 >> 点击进入→ 具身智能之心技术交流群更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球 (戳我) ，这里包含所有你想要的。主要贡献研究背景具身导航的重要性：具身导航是具身智能（Embodied AI）的一个基本且关键的组成部分，要求自主智能体通过与未见过的环境交互来解决复杂的导航任务。近年来，具身导航技术被广泛应用于家庭服务、仓储和物流等领域。 | Dataset | Total number Total duration | | --- | --- | | | of audio of samples | | SAVi-dataset (Chen, Al-Halah, and | 1.157 144 seconds | | Grauman 2021) | | | BeDAViN (Ours) | 2.258 | 现有研究的局限性：数据集限制：现有的音频-视觉导航数据集样本有限，难以模拟多样化的多声源场景。框架限制：大多数现有的导航框架是为单声源场景设计的，在多声源场景下的性能大幅下 ...

音频 - 视觉导航

BeDAViN数据集

音频 - 视觉导航

BeDAViN数据集