750城市+5000小时第一人称视频,上海AI Lab开源面向世界探索高质量视频数据集
量子位·2025-07-05 04:03
Sekai团队 投稿 量子位 | 公众号 QbitAI LeCun、李飞飞力挺的世界模型,想要实现,高质量数据是关键,也是难点。 现在,国内研究机构就从数据基石的角度出发,拿出了还原真实动态世界的新进展: 上海人工智能实验室、北京理工大学、上海创智学院、东京大学等机构 聚焦世界生成的第一步——世界探索 ,联合推出一个 持续迭代的高 质量视频数据集项目——Sekai (日语意为"世界") ,服务于交互式视频生成、视觉导航、视频理解等任务,旨在利用图像、文本或视频构 建一个动态且真实的世界,可供用户不受限制进行交互探索。 它汇聚了 来自全球101个国家和地区、750多座城市的超过5000小时第一人称行走与无人机视角真实世界或游戏视频, 配有精细化的标签, 涵盖文本描述、地点、天气、时间、人群密度、场景类型与相机轨迹等重要信息。总的来说,具有视频质量高、视频时间长、视角多样、地域 丰富及多维度标签等特点。 团队还利用Sekai部分数据,训练了一个初步的交互式视频世界探索模型—— Yume (日语意为"梦")。Yume在输入图片的基础上,通过 交 互式键鼠操作 (移动、视角转动)自回归形式地控制生成视频。 构建Sek ...