多模态大语言模型(MLLMs)

Search documents
大模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展
欧米伽未来研究所2025· 2025-04-20 14:32
" 欧米伽未来研究所 " 关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将不定期推荐和发布世界范围重要科技研究进展和未 来趋势研究。( 点击这里查看欧米伽理论 ) 我们生活在一个由空间构成的世界中。从每天在家居、办公环境或城市街道中的移动,到规划一次跨越山海的旅行,乃至科学家们研究气候变迁的地理模 式、城市扩张的复杂格局,这一切都深刻地依赖于我们对空间的感知、理解和运用能力。这种核心能力,我们称之为"空间智能"。 长久以来,人类凭借自身的感官系统和发达的大脑,不断地探索、适应并改造着周遭的空间环境,演化出了独特的空间认知机制。而今,随着人工智能 (AI)技术的日新月异,特别是大语言模型(LLMs)的横空出世,机器也开始显露出令人瞩目的空间智能潜力。这场由大模型引领的技术浪潮,正以前 所未有的深度和广度,渗透到从微观尺度的机器人导航,到中观尺度的城市规划管理,再到宏观尺度的地球科学研究等诸多领域。 这部报告由清华大学和芬兰赫尔辛基大学共同发布,将带领读者一同深入探究,大模型是如何被赋予"空间感"的?它们在跨越不同尺度的空间智能任务中 扮演着怎样日益重要的角色?以及在迈向更高级空间智能的 ...
大模型驱动空间智能综述:具身智能体、智慧城市与地球科学的进展
欧米伽未来研究所2025· 2025-04-20 14:32
" 欧米伽未来研究所 " 关注科技未来发展趋势,研究人类向欧米伽点演化过程中面临的重大机遇与挑战。将 不定期推荐和发布世界范围重要科技研究进展和未来趋势研究。( 点击这里查看欧米伽理论 ) 我们生活在一个由空间构成的世界中。从每天在家居、办公环境或城市街道中的移动,到规划一次跨越 山海的旅行,乃至科学家们研究气候变迁的地理模式、城市扩张的复杂格局,这一切都深刻地依赖于我 们对空间的感知、理解和运用能力。这种核心能力,我们称之为"空间智能"。 长久以来,人类凭借自身的感官系统和发达的大脑,不断地探索、适应并改造着周遭的空间环境,演化 出了独特的空间认知机制。而今,随着人工智能(AI)技术的日新月异,特别是大语言模型(LLMs) 的横空出世,机器也开始显露出令人瞩目的空间智能潜力。这场由大模型引领的技术浪潮,正以前所未 有的深度和广度,渗透到从微观尺度的机器人导航,到中观尺度的城市规划管理,再到宏观尺度的地球 科学研究等诸多领域。 这部报告由清华大学和芬兰赫尔辛基大学共同发布,将带领读者一同深入探究,大模型是如何被赋 予"空间感"的?它们在跨越不同尺度的空间智能任务中扮演着怎样日益重要的角色?以及在迈向更高级 空 ...
多模态大模型对齐新范式,10个评估维度全面提升,快手&中科院&南大打破瓶颈
量子位· 2025-02-26 03:51
MM-RLHF团队 投稿 量子位 | 公众号 QbitAI 尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有 的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。 快手,中科院,南大合作从三个层面入手推动MLLM alignment的发展,包括数据集,奖励模型以及训练算法,最终的alignment pipeline使 得不同基础模型在10个评估维度,27个benchmark上都取得了一致的性能增益,比较突出的是,基于本文提出的数据集和对齐算法对LLaVA- ov-7B模型进行微调后, conversational能力平均提升了19.5%,安全性平均提升了60%。 偏好数据,训练算法,模型以及评估pipeline均已全面开源。 该方法在twitter上也引起了热议,被评为 多模态alignment的game-changers 。 主要贡献: MM-RLHF人类偏好数据 1. 新数据集: 本文引入了一个包含 120k 精细标注的偏好比较对的数据集,包含三个维度的打分,排序, ...