Workflow
多模态大语言模型(MLLMs)
icon
Search documents
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 12:41
以下文章来源于具身智能之心 ,作者Tianxing Chen等 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tianxing Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 天行和muyao大佬团队出品的2.0工作,看看有哪些创新点和惊喜吧~ Webpage: https://robotwin-platform.github.io/ arXiv:https://arxiv.org/abs/2506.18088 Code: https://github.com/RoboTwin-Platform/RoboTwin Document: https://robotwin-platform.github.io/doc/ Title:RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Rando ...
细粒度视觉推理链引入数学领域,准确率暴涨32%,港中文MMLab打破多模态数学推理瓶颈
量子位· 2025-06-16 10:30
MINT-CoT团队 投稿 量子位 | 公众号 QbitAI 思维链(Chain of Thought, CoT)推理方法已被证明能够显著提升大语言模型(LLMs)在复杂任务中的表现。而在多模态大语言模型 (MLLMs)中,CoT 同样展现出了巨大潜力。 3. 过度依赖外部功能 像 MVoT 或 Visual SKETCHPAD 等方法,需要借助外部工具或能力来生成或修改图像,训练和推理过程成本高、不通用。 然而,当视觉信息与数学推理结合时,传统的 CoT 方法就显得力不从心了——视觉输入中的数学细节往往被忽略,导致推理结果不准确。 最近,香港中文大学 MMLab 团队正式发布了全新的视觉推理方案——MINT-CoT,专为解决"多模态数学推理"中的难题而设计。 为什么数学视觉推理这么难? 尽管已有一些研究尝试把视觉信息引入 CoT 推理,例如 Visual-CoT、Visual SKETCHPAD、VPT、ICoT 等方法,但在数学场景下依然存 在 三大瓶颈: 1. 粗粒度图像区域选择 大部分方法依赖边界框(Bounding Box)来截取图像区域。但数学图像里的元素(比如坐标轴、几何图形、标注文字等)高度关 ...
征稿倒计时!CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战
量子位· 2025-03-08 03:35
基础模型(FM)以其强大的生成能力,彻底改变了包括计算机视觉在内的多个领域。在此基础上,X领域特定的基础模型(XFM),如自动 驾驶FM、医疗FM等,通过在精选数据集上的训练和针对任务的架构修改,进一步提升了各自领域内的专业任务性能。然而,随着XFM的广泛 应用,其对抗性攻击的脆弱性也逐渐暴露。这些攻击可能导致模型对输入图像或提示进行错误分类,甚至生成对手期望的输出,对自动驾驶、 医疗诊断等安全关键型应用构成重大威胁。 论文征稿 本次研讨会诚邀与以下主题相关(但不限于)的投稿,并设立最佳论文奖(Best Workshop Paper): advml团队 投稿 量子位 | 公众号 QbitAI IEEE/CVF国际计算机视觉与模式识别会议(CVPR),作为人工智能领域最具学术影响力的顶级会议之一,将于2025年6月11日至6月15日 在美国田纳西州隆重举行。 在此盛会中,第五届对抗机器学习Workshop将由北京航空航天大学、中关村实验室、南洋理工大学等全球知名学术机构联合举办。本次 Workshop以 基础模型+X 为主题,旨在深入探讨基础模型(FM)及其在特定领域应用(XFM)中的鲁棒性挑战。 主题聚焦:基 ...