多模态理解

Search documents
师兄自己发了篇自动驾大模型,申博去TOP2了。。。
自动驾驶之心· 2025-07-09 12:56
点击下方 卡片 ,关注" 自动驾驶之心 "公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM方案。那么下一代大 模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬件适配、知识蒸馏与 量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越多的团队正在从事相 关方向研究。我们了解到不少同学靠着自己的努力,发了篇和自动驾驶相关的大模型工作,申博去了TOP2!前面 收到很多同学的求助,希望能够辅助开展大模型相关的论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人带、易踩坑、不知如 何写稿、投稿的难题。 ⼀、课程介绍⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成为 ...
大模型在自动驾驶后期的落地与研究方向有哪些?
自动驾驶之心· 2025-07-07 23:31
大模型在自动驾驶功能上的落地逐渐清晰化,理想、华为等公司开始推行自己的VLA、VLM 方案。那么下一代大模型需要关注的点有哪些呢? 按照早期自动驾驶技术发展的规律,当数据和方案基本验证有效后,开始重点关注轻量化与硬 件适配、知识蒸馏与量化加速、高效微调大模型等方向! 除此之外目前大火的CoT方案也是后期完成空间感知的重点,VLA+强化学习等高级推理范式 也被行业重点关注。 这些问题是学术界和工业界亟需要解决的,相关的论文研究受到审稿人的青睐,国内外越来越 多的团队正在从事相关方向研究。前面收到很多同学的求助,希望能够辅助开展大模型相关的 论文指导研究,解决无人带发论文,缺乏指导的痛点。 自动驾驶之心联合业内知名大模型方向学者,开展了1v6的大模型论文指导小班课,解决无人 带、易踩坑、不知如何写稿、投稿的难题。 ⼀、课程介绍⭐ 解决只了解大模型相关零散知识,没有清晰的体系的问题,帮助系统掌握指定方向的重点理论知 识,同时做适当拓展,让学员对指定方向内容形成更清晰的体系; 解决没有方向,动手能力差,无法复现论文,帮助同学将模型理论与代码实践相结合,协助同学 开发设计新模型铺垫基础;能让学员将baseline深化拓 ...
大模型这个坑,还有哪些可以发论文的点?
具身智能之心· 2025-07-05 02:25
随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。我们联合业界知名大模型专家,为大家退出了大模型1v6论文辅导小班课! ⼀、有关大模型核心的几个点⭐ 本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动态扩展和复杂推理三大方向的关键 技术。我们将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法; 在知识扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方 面,研究链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多 模态理解等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、 ...
下一代大模型高效计算:参数压缩、硬件适配与多模态推理、CoT等方向论文指导班来啦!
自动驾驶之心· 2025-07-04 07:13
⼀、课题简介⭐ 随着大语言模型(LLM)和多模态模型的快速发展,如何提升模型效率、扩展知识能力以及增强推理性能已成 为当前人工智能研究的核心议题。本课程系统性地探讨大模型的前沿优化方法,重点研究参数高效计算、知识动 态扩展和复杂推理三大方向的关键技术。 课程将深入分析大模型优化中的核心挑战:在参数压缩方面,研究剪枝稀疏化和量化加速等轻量化方法;在知识 扩展方面,探索检索增强生成(RAG)和参数高效微调(PEFT)等动态知识注入技术;在推理优化方面,研究 链式思维(CoT)和强化学习优化(GRPO)等高级推理范式。同时,课程还将探讨多智能体协作和多模态理解 等前沿方向。 通过本课程的学习,你将掌握大模型优化的核心算法,包括但不限于:结构化剪枝、低比特量化、动态检索、角 色化智能体、多跳推理等关键技术。课程采用理论讲解与实验实践相结合的方式,使用主流大模型(如 LLaMA、GPT等)作为实验平台,重点培养学生在模型优化和推理增强方面的研究能力。 关键词:大模型优化;参数高效计算;检索增强生成;链式推理;多智能体协作;多模态理解 ⼆、课程目的 三、招生人数⭐ 6⼈/期(⾄多8人) 四、招生对象⭐ 五、课程收获 解决 ...
开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源
机器之心· 2025-06-22 04:26
随着 GPT-4o 展现出令人印象深刻的多模态能力,将视觉理解和图像生成统一到单一模型中已成为 AI 领域的研究趋势(如MetaQuery 和 BLIP3-o )。 南洋理工大学 S-Lab 和商汤科技的研究团队推出 OpenUni,一个开源版 MetaQuery,仅用 1.1B 参数达到 8B 模型性能,更将代码、权重、数据全部开源! https://github.com/wusize/OpenUni 联系方式: size001@e.ntu.edu.sg 架构图, OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL (理解)与 SANA (生成) 机构: 南洋理工大学 S-Lab、商汤科技新加坡研究院 作者: Size Wu*, Zhonghua Wu*, Zerui Gong* (* 同等贡献), Qingyi Tao, Sheng Jin, Qinyue Li, Wei Li, Chen Change Loy 开源代码: 图 1 : OpenUni 在生成任务上的性能表现,展示了其高效的参数利用 三大核心优势 | Size Wu*1 | | Zhonghu ...
实测豆包1.6,最火玩法all in one!Seedance登顶视频生成榜一,豆包APP全量上线
量子位· 2025-06-12 07:11
海淀区高考模拟卷,豆包1.6文理科成绩全部突破700分,理科成绩更是比去年的豆包提升了154分。 | 海淀模拟全卷 | | | --- | --- | | 豆包大模型1.6: | 豆包-240615: | | 理科: 656+50=706 | 理科: 502+50=552 | | 文科:662+50=712 | 文科:572+50=622 | 视频领域, Seedance 1.0 Pro 亮相即登顶全球竞技场文生视频、图生视频双料第一。 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 不愧是字节,一发大模型,各模态榜单格局全部被重构! 最新豆包大模型1.6系列 ,"小版本"更新但推理、数学、多模态能力全部冲入 全球第一梯队 。 | Artificial Analysis Video Arena Leaderboard | | | | | | Artificial Analysis Video Arena Leaderboard | | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Text to Video | ...
多模态=AGI入场券?阶跃星辰姜大昕:死磕基座大模型,探索多模态理解生成一体化
量子位· 2025-05-10 04:40
衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 当大模型赛道中不少玩家明确表示放弃基础大模型研发,心思放在更聚焦的方向上时,阶跃星辰站出来——就像这家公司第一次亮相时那 样,给外界一个明确的回答: 我们会 坚持基础大模型研发。 创始人兼CEO姜大昕解 释了背后逻辑。 一方面,大模型行业的趋势技术发展还是在非常陡峭的区间。 他也很感慨AI行业发展瞬息万变,"去年大家觉得GPT-4很牛,今天他都快下 架了",等到明年看今年的技术,同样会觉得微不足道。 姜大昕说,阶跃不想在这个过程中放弃主流增长或前进的趋势,所以还是会坚持做基础模型的研发。 另一方面,从应用的角度来看,阶跃仍然相信应用和模型是相辅相成的。 因此,在基座模型上面继续投入以追求智能的上限,仍然是当下最重要的一件事。 要怎么去不停触碰智能的边界or天花板?不如先来看看这个领域里最前沿的趋势有哪些。 姜大昕复盘道,趋势共有如下两条: 一条是"模仿学习到强化学习",另一条是"从多模态融合走向了多模态理解生成一体化"。 从模仿学习到强化学习的技术演进大家已经非常熟悉, OpenAI的o1、o3,以及DeepSeek-R1背后采用的都是强化学习技术,也是现 ...
细扒字节Seed 逆天招人要求!这5%本地顶级大脑做出了首个跨7大语言代码修复基准,让大模型成本狂降83%!
AI前线· 2025-04-28 11:10
作者|冬梅 字节 Top Seed 启动 2026 届招聘,瞄准顶尖博士 4 月 27 日,字节跳动 Seed 在其官微上发布了一则招聘启示,宣布正式启动 2026 届 Top Seed 大模型顶尖人才校招计划, 研究课题包括大语言模型、机器学习算法和系统、多模态生成、多模态理解、语音等方向,基本覆盖大模型研究各个领域, 计划招募约 30 位顶尖应届博士。 值得一提的是,本届 Top Seed 强调不限专业背景,更关注研究潜力,希望寻找具有极强技术信仰与热情、具备出色研究能 力、富有好奇心和驱动力的年轻研究者。 值得注意的是,字节跳动在此次招聘启事中还透露了几位刚毕业的同学已经做出了一些有影响力的研究。 比如,Z 同学构建并开源了首个多语言代码修复基准 Multi-SWE-bench,在 SWE-bench 基础上,首次覆盖 Python 之外的 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 七种编程语言,1632 个真实修复任务,是真正面向"全栈工程"的评测 基准,其数据均来自 GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。 ...