Multi-modal Contrastive Learning - filings, earnings calls, financial reports, news - Reportify

Multi-modal Contrastive Learning

Search documents

VisionTrap: VLM+LLM教会模型利用视觉特征更好实现轨迹预测

自动驾驶之心· 2025-08-20 23:33

作者 | Sakura 编辑 | 自动驾驶之心原文链接： https://zhuanlan.zhihu.com/p/716867464 点击下方卡片，关注" 自动驾驶之心 "公众号戳我-> 领取自动驾驶近30个方向学习路线 >>自动驾驶前沿信息获取 → 自动驾驶之心知识星球本文只做学术分享，如有侵权，联系删文 VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions 来源 ECCV 2024 开源数据集在这项工作中，我们提出了一种新方法，该方法还结合了来自环视摄像头的视觉输入，使模型能够利用视觉线索，如人类的凝视和手势、道路状况、车辆转向信号等，这些线索在现有方法中通常对模型隐藏。此外，我们使用视觉语言模型（VLM）生成并由大型语言模型（LLM）细化的文本描述作为训练期间的监督，以指导模型从输入数据中学习特征。尽管使用了这些额外的输入，但我们的方法实现了53毫秒的延迟，使其可用于实时处理，这比之前具有类似性能的单代理预测方法快得多。我们的实验表明，视觉输入和文本描述都有助于提高 ...

Trajectory Prediction

Visual-Language Model (VLM)

Large-Language Model (LLM)

Multi-modal Contrastive Learning

Autonomous Driving

Trajectory Prediction

Visual-Language Model (VLM)

Large-Language Model (LLM)

Multi-modal Contrastive Learning

Autonomous Driving